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我 的 第 一 部 智能 手机 是 多 普 达 565， 当 时 使 用 的 是 windows Mobile 
操作 系统 ， 现 在 看 来 ， 不 管 是 操作 交互 ， 还 是 系统 的 整体 能 力 ， 都 与 今 
天 的 智能 手机 有 着 天 壤 之 别 。 但 是 ， 即 便 是 那样 的 操作 系统 ， 也 已 经 足 
够 让 当时 的 我 认识 到 一 个 真正 的 操作 系统 能 给 一 部 随身 设备 赋予 的 强大 
能 力 。 智 能 手机 后 来 这 十 几 年 的 发 展 还 是 超出 了 很 多 人 的 预料 ， 很 难 想 
象 ， 如 果 没 有 现在 的 高 速 数 据 网 络 和 每 个 人 手头 的 这 个 小 终端 ， 我 们 的 
工作 和 生活 会 有 多 少 不 方便 的 地 方 。 


生活 在 这 个 时 代 的 程序 员 是 足够 辛 运 的 ， 信 息 化 的 无 限 渗 透 也 意味 
着 有 想法 、 有 能 力 的 程序 员 对 人 们 生活 范围 的 影响 越 来 越 大 。 我 与 很 多 
资深 的 开发 人 员 都 有 过 交流 ， 基 本 上 能 把 这 些 人 分 成 两 类 。 一 类 是 以 对 
技术 本 里 的 钻研 为 目标 的 技术 人 员 ， 他 们 所 关注 的 是 架构 是 不 是 足够 先 
进 ， 可 扩展 性 如 何 ， 系 统 整体 的 负载 能 力 ， 遇 到 错误 时 的 鲁 棒 性 等 。 总 
之 ， 他 们 内 心 的 成 就 感 来 自 是 否 把 技术 做 到 了 极致 ， 同 行 〈 或 者 目 己 ) 
看 到 的 时 候 ， 会 不 会 由 衷 地 说 这 东西 真 棒 。 还 有 一 类 技术 人 员 ， 他 们 的 
成 就 感 来 自 目 己 的 工作 成 果 是 否 能 够 直接 对 使 用 者 产生 影响 。 相 对 技术 
本 刁 的 挑战 ， 这 类 人 更 在 乎 目 己 所 做 的 东西 是 仿真 正 被 身边 的 人 使 用 ， 
使 用 者 用 到 上 自己 作品 时 的 感受 ， 以 及 是 否 真 正 给 使 用 者 和 社会 带 来 了 大 
助 。 两 类 人 没有 高 低 之 分 ， 倒 有 点 像 理论 研究 和 应 用 研究 的 关系 ， 两 个 
方向 相辅相成 ， 彼 此 成 就 ， 彼 此 推动 。 


音 视频 技术 的 发 展 正 好 处 在 理论 和 应 用 的 十 字 路 口 。 各 种 音 视频 技 
术 天 生 就 与 老百姓 的 生活 距离 很 近 ， 拍 照 、 唱 歌 、 小 视频 、 瘦 脸 、 美 
颜 、 大 混 音 ， 基 本 上 算是 大 众 手机 里 最 常用 的 一 些 功能 了 。 这 些 功能 背 
后 的 技术 ， 也 会 因 用 户 的 需求 推动 而 快速 发 展 。 从 软件 到 硬件 ， 从 各 种 
人 脸 识 别 的 算法 到 越 来 越 强 大 的 摄像 头 或 是 专用 的 DSP 心 片 ， 摩 尔 定律 
在 这 个 细 分 领域 的 发 挥 可 以 算是 麻 注 尽 致 ， 这 也 对 有 志 于 在 这 个 领域 
发 展 的 研发 人 员 提出 了 更 高 的 要 求 : 一 方面 ， 要 能 沉 得 下 去 ， 音 视频 相 
关 的 底层 技术 可 以 说 是 CS 领域 里 相当 难 踢 的 一 块 人 硬骨头， 对 算法 、 编 
码 甚至 是 数学 基础 都 有 很 高 的 要 求 ， 另 一 方面 ， 还 要 能 经 党 抬 起 头 ， 不 
只 是 要 跟 上 相关 领域 的 快速 发 展 ， 也 要 理解 和 挖掘 用 户 的 真实 需求 ， 这 
可 以 算是 CS 领域 里 挑战 很 大 同时 成 就 感 也 很 大 的 困难 模式 了 。 


本 书 的 作者 展 晓 凯 是 音 视 频 领 域 的 权威 专家 。 在 几 年 间 的 持续 研究 
中 ， 他 总 结 出 了 一 套 在 音 视频 领域 比较 系统 的 工程 实践 方法 ， 希 望 这 些 





















































总 结 能 够 帮助 到 对 相关 领域 感 兴趣 的 你 。 如 采 能 进一步 影响 更 多 的 人 ， 
将 是 对 本 书 作者 最 大 的 残 励 和 褒奖 。 


田 然 


2017 年 9 月 于 北京 
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随 痢 智能 手机 的 出 现 ， 音 视频 传 感 硕 比 以 往 任 何 时 候 都 更 加 接近 用 
户 ， 可 以 说 ， 移 动 互联 网 时 代 其 实 也 是 音 视 频 内 容 爆炸 的 时 代 。 几 乎 每 
个 应 用 都 希望 能 尽 可 能 地 开局 用 户 所 有 的 权限 ， 让 用 户 把 目 己 的 每 时 每 
刻 都 上 传 和 分 享 出 来 ， 于 是 即时 聊天 IM 几 乎 走 进 了 每 一 个 App。 而 这 一 
两 年 的 直播 大 战 的 背后 ， 更 是 让 直播 这 种 富 媒 体 几 乎 变 成 了 各 类 App 的 
标 配 功能 ， 以 至 于 市 场 对 首 视 频 研发 人 才 求 之 奉 渔 ， 首 视频 的 学 习 材料 
也 一 时 洛阳 纸 贯 ， 由 此 催生 出 来 的 各 种 大 小 公司 、 大 小 产业 也 是 层 出 不 
穷 , 业内 对 音 视频 处 理 的 知识 和 经 验 的 分 享 更 是 如 火 如 茶 。 然 而 ， 音 视 
频 处 理 实 在 是 一 门 艰深 的 学 问 ， 从 传 里 叶 变 换 到 兰 分 编码 等 各 种 理论 ， 
再 到 充满 差异 化 甚至 Bug 的 安 早 设备 的 现实 应 用 环境 ， 既 要 在 国内 复杂 
的 网 络 环境 下 尽力 满足 用 户 视听 观感 的 流畅 感觉 ， 又 希望 让 小 小 的 移动 
设备 物 尽 其 用 来 为 用 户 提供 最 极致 的 感官 体验 ， 而 这 些 灼 烧 无 数 程序 员 
脑 细 胞 的 问题 ， 实 在 不 是 一 两 篇 长 文 就 可 以 简单 讲 清楚 的 。 符 要 让 一 个 
几 无 基础 的 开发 者 能 够 系统 地 车 握 音 视频 的 处 理 知 识 ， 确 有 必要 撰写 一 
本 图 书 并 通过 具体 实例 来 详细 讲解 才 行 。 


我 认识 本 书 的 作者 展 晓 凯 已 经 五 年 多 了 ， 他 几乎 是 唱 吧 最 勤奋 的 技 
术 人 员 ， 在 唱 吧 浩瀚 的 代码 库 里 ， 到 处 都 留 有 他 的 成 果 。 唱 吧 是 中 国 鼎 
具 影 响 力 的 K 歌 产品 之 一 ， 从 2012 年 雄 距 苹果 榜首 之 后 ， 就 再 也 没有 离 
开 过 榜 蛙 ， 多 年 来 其 为 用 户 创 造 了 无 数 新 奇 的 功能 和 体验 ， 从 各 种 振奋 
人 心 的 温 啊 ， 到 市 稚 感 到 人 的 自动 说 唱 ， 所 有 的 这 些 功能 ， 都 是 出 自 展 
晓 册 和 他 所 在 的 三 五 个 人 的 小 团队 之 手 。 而 以 唱 吧 的 用 户 体 量 ， 他 们 目 
然 也 遇 到 了 许多 问题 ， 从 各 种 花屏 、 黑 屏 、 啸 叫 、 和 白 噪 等 通用 技术 问 
题 ， 到 用 户 手 机 上 因 形 形 色 色 系 统 或 硬件 差异 而 产生 的 稀奇 古怪 的 问 
题 ， 也 无 一 不 是 展 晓 凯 所 在 的 团队 逐个 去 解决 的 。 可 以 说 ， 发 展 到 今 
天 ， 唱 吧 几 乎 拥有 业内 了 基 和 丰富 的 音 视频 处 理 经 验 ， 而 这 些 经 验 中 的 精 
0 
一 份 福 首 。 


里 然 与 展 晓 弛 一 起 并 肩 战 斗 了 四 五 年 ， 但 我 本 人 并 没有 太 多 机 会 详 
细 参 与 每 一 个 音 视频 问题 的 处 理 ， 如 今 通 读 完 这 本 书 的 原稿 ， 我 深 感 收 
获 不 小 。 本 书 是 展 晓 凯 花 费 了 无 数 心血 的 作品 ， 其 中 的 每 一 行 代 码 每 一 
个 实例 都 来 目 他 日 音 工 作 中 实际 问题 的 总 结 。 本 书 也 许 不 是 市 面 上 唯一 
一 本 关于 音 视 频 处 理 的 著作 ， 但 它 的 出 现 ， 足 以 为 市 场 带 来 一 个 特有 的 









































， 并 令 无 数 致力 于 打造 移动 设备 上 音 视 频 处 理 完美 体验 的 程 


黄 全 能 
2017 年 9 月 于 北京 


前 言 
为 什么 要 写 这 本 书 


整个 音 视频 领域 的 架构 以 及 开发 已 经 演进 了 很 长 时 间 ， 从 最 开始 的 
广电 领域 ， 到 PC 端的 音 视 频 领 域 ， 再 到 本 书 所 介绍 的 移动 端的 音 视 频 
领域 。 尤 其 在 这 几 年 中 ， 移 动 闫 音 视 频 领 域 架 构 的 变化 是 巨大 的 。 在 移 
动 互联 网 的 发 展 热 淹 中 ， 我 有 笠 从 事 了 音 视 频 领 域 的 设计 与 开 及 ， 并 且 
束 职 于 最 时 尚 的 手机 KTV 一 一 唱 吧 ， 这 使 得 我 开发 出 来 的 东西 能 够 服务 
于 几 亿 用 户 。 对 于 音 视 频 的 移动 端的 应 用 ， 不 论 是 开发 还 是 使 用 ， 在 近 
两 年 都 达到 了 一 个 高 峰 ， 而 作为 一 名 工程 师 ， 如 何 高 效 地 开发 出 一 个 音 
视频 App， 是 一 件 非 常 困 难 的 事情 ， 特 别 是 对 于 不 太 了 解 首 视 频 概 念 的 
工程 师 。 我 从 事 软 件 开发 已 有 7 年 多 的 时 间 ， 接 触 音 视 频 领域 也 已 经 有 5 
年 多 ， 在 整个 开发 过 程 中 ， 不 同 的 时 间 段 会 遇 到 不 同 的 挑战 ， 尤 其 是 在 
最 开始 涉足 音 视 频 领 域 的 时 候 ， 真 可 谓 举步维艰 。 首 先 ， 对 于 音 视 频 的 
基础 概念 不 是 特别 清楚 ， 再 者 在 工作 中 边 学 边 做 ， 很 难 对 整个 音 视频 领 
域 有 一 个 全 面 的 了 解 ， 并 且 市 面 上 没有 相关 成 熟 的 资料 从 更 高 的 层次 来 
介绍 音 视 频 领 域 在 移动 端的 演进 与 发 展 。 这 儿 年 的 设计 实战 与 开发 经 
验 ， 以 及 带 新 人 入 门 的 众多 感触 ， 让 我 有 了 写 这 本 书 的 动力 ， 同 时 也 形 
成 了 这 本 书 的 核心 内 容 ， 我 希望 通过 本 书 可 以 帮助 更 多 想 要 在 移动 端 首 
视频 领域 实现 自己 想法 的 工程 师 ， 让 大 家 可 以 顺利 地 建立 起 自己 的 音 视 
频 App。 我 非常 希望 能 为 刚 入 门 的 读者 或 者 遇 到 困难 的 读者 提供 帮助 ， 
布 望 大 家 可 以 享受 整个 开发 的 过 程 ， 部 受 目 己 开 发 的 产品 为 人 们 的 生活 
币 来 便利 的 成 就 感 。 力 外 ， 从 整个 音 视频 开 友 领域 来 讲 ， 我 也 十 分 希望 
能 够 通过 本 书页 献 出 自己 的 绵薄 之 力 。 


读者 对 象 


-产品 经 理 ， 这 部 分 读者 可 以 从 中 了 解 在 移动 端 进行 音 视频 开发 会 
遇 到 的 很 多 问题 以 及 对 应 的 优化 策略 ， 例 如 : 如 何 通过 音 视频 的 统计 数 
据 为 产品 提供 更 加 流畅 的 策略 “视频 观看 的 秒 开 、 直 播 推 滨 的 流畅 度 、 
视频 上 传 的 成 功率 等 ) 。 


项 目 经 理 ， 这 部 分 读者 可 以 了 解 很 多 时 下 流行 的 名 词 与 概念 ， 不 
再 会 因为 几 个 专业 名 词 就 让 目 己 不 知 所 措 ， 并 且 有 助 于 更 好 地 评估 音 视 
频 项 目 开 发 中 的 风险 与 进度 。 



































测试 人 员 ， 这 部 分 读者 可 以 学 习 在 首 视 频 App 中 由 于 处 理 过 程 不 同 
而 导致 的 瓶颈 问题 ， 书 中 也 提 到 了 一 些 目 动 化 测试 相关 的 命令 以 及 工 
$0 


架构 师 与 工程 师 ， 这 部 分 读者 只 需要 一 点 移动 开 友 经 验 束 可 以 阅 
读本 书 了 。 妆 然 如 果 你 已 经 是 一 个 高 级 移动 开发 工程 师 或 者 染 构 师 ， 那 
么 读 起 本 书 来 将 更 加 游 轧 有 余 。 再 进一步 ， 如 果 你 已 经 是 移动 领域 的 首 
0 
部 的 对 话 。 


:开设 相关 这 程 的 融 等 院 校 。 
如 何 阅读 本 书 


为 了 避免 说 教 式 的 讲解 带 来 枯燥 乏味 的 阅读 体验 ， 本 书 给 出 了 大 量 
的 实例 及 生产 环境 下 的 案例 。 本 书 可 分 为 四 个 部 分 : 第 一 部 分 是 入 门 ， 
从 理论 基础 开始 讲解 ， 最 终 会 产生 两 个 实践 项 目 ， 第 二 部 分 是 提高 ， 基 
于 第 一 部 分 的 项 目 添加 特效 ， 形 成 一 个 完整 的 多 媒体 项 目 ; 第 三 部 分 古 
扩展 ， 结 合 当下 比较 流行 的 直播 场景 进行 实际 案例 分 析 ; 第 四 部 分 是 工 
具 ， 介 绍 当 下 大 部 分 可 以 提高 开发 以 及 测试 效率 的 工具 。 下 面 是 各 个 章 
节 的 基本 介绍 。 


第 1 章 ， 介 绍 音 视 频 的 基础 概念 ， 其 中 包括 音 视 频 的 基础 数据 格 
式 、 编 码 后 的 数据 格式 以 及 不 同 格 式 之 间 的 相互 转换 等 。 


第 2 章 ， 从 零 开 始 讲解 如 何 搭建 一 个 iOS 项 目 和 一 个 Android 项 目 ， 
并 且 添 加 C++ 支 持 ， 因 为 在 音 视 频 领域 的 开发 中 ， 有 相当 一 部 分 的 代码 
需要 用 C++ 来 编写 ， 这 样 就 可 以 做 到 两 个 平台 (Android 和 iOS 平 台 ) 共 
用 一 套 代码 仓库 ， 以 提升 开发 效率 。 然 后 讲解 交叉 编译 ， 因 为 在 音 视频 
开发 过 程 中 会 用 到 很 多 第 三 方 开 源 库 ， 如 果 将 这 些 库 编译 到 我 们 的 项 目 
中 ， 势 必要 进行 交叉 编译 ， 因 此 本 章 会 重点 讲解 这 些 内 容 。 


第 3 章 ， 探 讨 FFmpeg 开 源 库 。 对 于 音 视频 开发 来 讲 ，FFmpeg 开 源 库 
是 众所周知 也 是 普遍 使 用 的 。 本 章 首先 从 编译 开始 ， 接 着 是 命令 行使 
用 ， 再 到 源码 结构 ， 最 后 是 API 调 用 ， 以 层 层 递 进 的 方式 对 FFmpeg 开 源 
库 展 开 介绍 。 




















第 4 章 ， 讲 解 如 何 利用 各 自 平台 的 API 进 行 声 音 与 画面 的 泻 染 以 及 解 
码 ， 对 于 画面 的 泻 染 ， 推 荐 使 用 OpenGL ES， 两 个 平台 可 以 使 用 同一 个 
代码 仓库 。 


第 5 章 ， 实 现 一 款 视频 播放 器 。 有 了 前 四 章 的 基础 ， 我 们 已 经 完全 
可 以 构建 起 一 个 视频 播放 器 了 。 本 书 最 大 的 特点 就 是 经 过 几 音 基础 知识 
的 学 习 立 即 开始 一 个 项 目的 实践 ， 通 过 本 章 的 视频 播放 器 项 目 ， 我 们 将 
会 熟悉 播放 器 是 如 何 工作 的 。 

第 6 章 ， 重 点 介绍 音 视频 的 采集 与 编码 器 。 特 别 是 硬件 编 解码 器 在 
各 个 平台 上 的 使 用 ， 使 得 应 用 能 够 更 高 效 ( 耗 电 更 少 、 发 热 更 少 、 界 面 
更 流畅 ) 地 运行 在 用 户 的 手机 上 。 


第 7 章 ， 继 续 开 发 一 个 视频 录制 的 新 项 目 ， 该 项 目 可 以 使 我 们 更 加 
熟悉 音 视 频 应 用 在 各 个 平台 下 的 实现 。 


第 8 章 ， 讲 解 如 何 处 理 音 频 流 。 毕 竟 让 别人 上 听 采 集 出 来 的 和 干 声 是 很 
不 礼貌 的 ， 本 章 将 利用 各 种 特效 来 美化 采集 的 声 首 。 


第 9 草 ， 讲 解 如 何 处 理 视频 流 ， 使 视频 中 的 闫 值 变 得 更 高 ， 毕 苋 爱 
美 之 心 人 骨 有 之 。 


第 10 章 ， 在 第 7 章 的 项 目 基 础 之 上 ， 增 加 第 8 章 的 音频 特效 和 第 9 章 
的 视频 特效 ， 从 而 构建 一 个 实际 生产 过 程 中 的 多 媒体 应 用 。 

第 11 章 ， 继 续 以 项 目 作 为 驱动 ， 详 细 讲 解 如 何 基 于 之 前 学 习 的 内 容 
构建 一 个 直播 的 应 用 ， 重 点 介绍 推 流 以 及 拉 流 端 ， 同 时 还 涉及 礼物 特 
效 、 聊 天 以 及 第 三 方 云 服 务 的 内 容 。 


第 12 章 ， 由 于 直播 应 用 很 难 用 一 章 的 篇 幅 讲 完 ， 所 以 本 章 针 对 一 些 
核心 的 处 理 进 行 讲解 。 


第 13 章 ， 介 绍 利用 的 工具 和 排 错 方法 ， 说 明 在 日 名 开发 中 如 何 更 有 
效率 地 解决 问题 ， 本 章 内 容 并 不 仅 限 于 音 视 频 的 开发 领域 。 


附录 给 出 一 些 参考 内 容 。 
勘误 和 支持 























由 于 作者 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 或 者 
不 准确 的 地 方 ， 姑 请 读者 批评 指正 。 为 此 ， 我 特意 创建 了 一 个 在 线 支持 
与 应 急 方 案 的 二 级 站 点 http://music-video.cn。 你 可 以 将 书 中 的 错误 发 布 
在 Bug 勘 误 表 页 面 中 ， 同 时 如 果 你 遇 到 问题 ， 也 可 以 访问 Q&A 页 面 ， 我 
将 尽量 在 线 上 为 你 提供 最 满意 的 解答 。 书 中 的 全 部 源 代码 文件 都 将 发 布 
在 这 个 网 站 上 ， 我 也 会 及 时 地 进行 相应 的 功能 更 新 。 如 果 你 有 更 多 的 宝 
贯 意见 ， 也 欢迎 发 送 邮件 至 我 的 邮箱 zhanxiaokai2008@126.com， 我 很 
期 待 听 到 你 们 的 真挚 反馈 。 


致谢 

感谢 唱 吧 与 唱 吧 的 每 一 位 同事 ， 是 这 个 公司 让 我 的 职业 生涯 友 展 到 
了 今天 ， 也 是 这 个 公司 让 我 能 在 音 视频 领域 达到 今天 的 成 就 ， 可 以 说 没 
有 了 唱 吧 就 不 会 有 这 本 书 的 问世 。 


感谢 唱 吧 的 每 一 位 用 户 ， 感 谢 你 们 对 唱 吧 的 长 期 文 持 和 贡献 ， 没 有 
你 们 就 不 会 有 唱 吧 的 今天 ， 也 葡 不 会 有 这 本 书 的 问世 。 


感谢 我 的 老婆 ， 感 谢 你 对 我 工作 以 及 写作 的 支持 ， 是 你 在 我 背后 默 
默 做 了 很 多 事情 ， 才 让 我 把 更 多 的 时 间 和 精力 放 到 工作 以 及 写作 中 。 

感谢 机 械 工 业 出 版 社 华 童 公司 的 编辑 Lisa 老 师 ， 感 谢 你 的 牟 力 和 远 
见 ， 在 这 一 年 多 的 时 间 中 始终 文 持 我 的 写作 ， 正 是 你 的 或 励 和 帮助 引导 
我 顺利 完成 全 部 书 稳 。 


感谢 互联 网 ， 我 们 在 互联 网 上 到 出 的 任何 一 步 都 是 人 类 历史 向 前 近 
进 的 一 步 ， 感 谢 众 多 互联 网 人 的 辛 昔 工 作 ， 为 我 们 创造 了 这 么 多 机 过 。 


谨 以 此 书 献 给 我 最 杀 爱 的 家 人 、 同 事 ， 以 及 众多 互联 网 从 业者 。 
展 晓 凯 
2017 年 9 月 于 北京 





第 1 章 ” 音 视频 基础 概念 


为 了 避免 枯燥 的 说 教 陈 讲解 ， 本 章 将 结合 示意 图 来 介绍 音频 与 视频 
的 基础 概念 ， 对 于 本 章 的 学 习 ， 不 需要 使 用 任何 开发 环境 。 研 究 数字 音 
频 时 ， 必 须要 对 声学 现象 有 一 定 的 了 解 ， 知 只 研究 数字 音频 而 忽略 了 声 
学 现象 ， 那 就 本 末 倒 置 了 ， 因 为 音频 扩 术 是 为 了 记录 、 存 储 和 回放 声学 
现象 才 发 明 的 ， 所 以 先 了 解 声 学 现象 对 学 习 数 字音 频 是 有 很 大 帮助 的 。 
声音 产生 于 目 然 界 ， 早 在 没有 任何 科学 研究 的 时 候 ， 就 已 经 存在 声音 
了 ， 并 且 各 种 声音 还 可 以 组 成 动听 的 音乐 ; 当 人 类 有 了 记录 以 及 存储 声 
首 的 能 力 之 后 ， 束 迎 来 了 模拟 信号 到 数字 信号 的 转换 ， 所 以 本 章 首 先 会 
介绍 如 何 记 录 以 及 存储 声音 。 

相 比 声音 ， 视 频 〈 画 面 ) 更 易于 观察 ， 本 章 将 从 图 像 的 物理 现象 开 


台 讲 解 ， 然 后 讨论 一 帧 帧 的 画面 是 如 何 描述 的 ， 以 及 视频 是 如 何 被 记录 
和 存储 到 设备 中 的 。 


学 习 完 本 章 之 后 ， 相 信 大 家 对 耳 朱 能 够 直接 听 到 的 声音 ， 眼 睛 能 够 
直接 看 到 的 图 像 会 有 更 深入 的 认 知 。 




















1.1 声音 的 物理 性 质 
1.1.1 声音 是 波 


说 到 声音 ， 爱 好 音乐 的 人 首先 可 能 会 想到 优美 的 音乐 或 者 是 劲爆 十 
足 的 舞曲 ， 这 些 音乐 只 是 声音 的 一 种 。 音 乐 是 由 乐器 弹 奏 或 者 歌手 演唱 
而 产生 的 ， 那 么 声音 是 如 何 产 生 的 呢 ? 回想 一 下 中 学 物理 课本 上 的 定义 
一 一 声 首 是 由 物体 振动 而 产生 的 (如 图 1-1 所 示 〉。 











图 1-1 


如 图 1-1 所 示 ， 当 小 球 撞击 到 音 又 的 时 候 ， 音 又 会 发 生 振动 ， 对 周 
围 的 空气 产生 挤 压 ， 从 而 产生 声音 。 声 音 是 一 种 压力 波 ， 当 演奏 乐器 、 
担 打 一 书 门 或 者 殴 击 昌 面 时 ， 它 们 的 振动 都 会 引起 空气 有 节奏 的 振动 ， 
使 周围 的 空气 产生 下 密 变化 ， 形 成 下 密 相间 的 纵波 《〈 可 以 理解 为 石头 落 


入 水 中 激 起 的 波纹 〉， 由 此 就 产生 了 声波 ， 这 种 现象 会 一 直 延 续 到 振动 
消失 为 止 。 


1.1.2 ”声波 的 三 要 素 


声波 的 三 要 素 是 频率 、 振 幅 和 波形 ， 频 率 代 表 音 阶 的 高 低 ， 振 幅 代 
表 啊 度 ， 波 形 代 表 音 色 。 


频率 〈 过 零 率 ) 越 高 ， 波 长 束 越 短 。 低 频 声 咽 的 波长 则 较 长 ， 所 以 
其 可 以 更 容易 地 绕 过 障碍 物 ， 因 此 能 量 爱 减 就 小， 声音 束 会 传 得 远 ， 肥 
之 则 会 得 到 完全 相反 的 结论 。 


啊 度 其 实 束 是 能 量 大 小 的 反映 ， 用 不 同 的 力度 敲 击 末 子 ， 声 音 的 大 
小 势必 也 会 不 同 。 在 生活 中 ， 分 贝 常用 于 描述 咽 度 的 大 小 。 声 普 超 过 一 
定 的 分 贝 ， 人 类 的 耳 泉 束 会 受 不 了 。 


音色 其 实 也 不 难 理解 ， 在 同样 的 音调 (频率 ) 和 啊 度 振幅) 下， 
钢 蕉 和 小 提 稚 的 声音 听 起 来 是 完全 不 相同 的 ， 因 为 它们 的 音色 不 同 。 波 
的 形状 决定 了 其 所 代表 声音 的 音色 ， 钢 琴 和 小 提琴 的 音色 不 同 就 是 因为 
它们 的 介质 所 产生 的 波形 不 同 。 


人 类 耳 永 的 听力 有 一 个 频率 范围 ， 大 约 是 20Hz 一 20kHz， 不 过 ， 即 
使 是 在 这 个 频率 范围 内 ， 不 同 的 频率 ， 上 听力 的 感觉 也 会 不 一 样 ， 业 界 非 
常 著名 的 等 啊 曲 线 ， 就 是 用 来 描述 等 啊 条 件 下 声 压 级 与 声波 频率 关系 
的 ， 如 图 1-2 所 示 。 
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图 1-2 
从 图 1-2 中 可 以 看 出 ， 人 耳 对 3 一 4kHz 频 率 范 围 内 的 声音 比较 敏感 ， 
而 对 于 较 低 或 较 融 频率 的 声 首 ， 敏 感度 束 会 有 所 减弱 ， 在 声 压 级 较 低 
时 ， 听 和 沉 的 频率 特性 会 很 不 均 义 ; 而 在 声 压 级 较 高 时 ， 听 和 澳 的 频率 特性 
会 变 得 较为 均 勾 。 频 率 范 围 较 宽 的 音乐 ， 其 声 压 以 80 一 90dB 为 最 佳 ， 超 














过 90dB 将 会 损害 人 耳 〈105dB 为 人 耳 极 限 ) 。 





1.1.3 ”声音 的 传播 介质 


吉他 是 通过 演奏 者 拨 动 琴 弦 来 发 出 声音 的 ， 鼓 是 通过 鼓 析 散 击 鼓 面 
发 出 声音 的 ， 这 些 声音 的 产生 都 离 不 开 振动 ， 就 连 我 们 说 话 也 是 因为 声 
带 振动 而 产生 声音 的 。 既 然 都 是 振动 产生 的 声音 ， 那 为 什么 吉他 、 鼓 和 
人 声 听 起 来 相差 这 么 大 昵 ? 这 是 因为 介质 不 同 。 我 们 的 声带 振动 发 出 声 
音 之 后 ， 经 过 口腔 、 颅 腔 等 局 部 区 域 的 反射 ， 再 经 过 空气 传播 到 别人 的 
耳 打 里 ， 这 就 是 我 们 说 的 话 被 别人 听 到 的 过 程 ， 其 中 包括 了 最 初 的 发 声 
介质 与 颅 腔 、 口 腔 ， 还 有 中 间 的 传播 介质 等 。 事 实 上 ， 声 音 的 传播 介质 
很 广 ， 它 可 以 通过 空气 、 液 体 和 固体 进行 传播 而且 介 质 不 同 ， 传 播 的 
速度 也 不 同 ， 比 如 ， 声 音 在 空气 中 的 传播 速度 为 340m/s， 在 蒸馏水 中 的 
传播 速度 为 1497m/s， 而 在 铁 棒 中 的 传播 速度 则 可 以 高 达 5200m/s; 不 
过 ， 声 音 在 真空 中 是 无 法 传播 的 。 


生活 小 贴 士 


在 日 第 生活 中 ， 我 们 也 会 利用 对 声音 的 研究 去 做 一 些 使 我 们 更 舒适 
的 事情 ， 比 如 吸 普 棉 和 隔 普 柳 ， 这 两 种 常见 产品 的 发 明 就 是 过 过 研究 声 
首 在 传播 中 的 特性 而 研发 出 来 的 。 


吸 首 主要 是 解决 声 首 反 财 而 产生 的 嘲 杂 感 ， 吸 首 材 料 可 以 衰减 入 冉 
音源 的 反射 能 量 ， 从 而 达到 对 原 有 声 源 的 保 真 效 末 ， 比 如 录音 棚 里 面 的 
载 壁 上 融会 使 用 吸音 栅 材 料 。 


隔音 主要 是 解决 声音 的 透射 而 降低 主体 空间 内 的 吵 南 感 ， 隅 音 棚 材 
料 可 以 衰减 入 射 音源 的 透射 能 量 ， 从 而 达到 主体 空间 的 安静 状态 ， 比 如 
KTV 里 面 的 墙壁 上 就 会 安装 隔音 栅 材 料 。 
































1.1.4 回声 


当 我 们 在 高 山 或 空旷 地 带 高 声 大 喊 的 时 候 ， 经 常会 听 到 回声 
(echo) 。 之 所 以 会 有 回声 是 因为 声音 在 传播 过 程 中 过 到 障碍 物 会 反弹 
回来 ， 再 次 被 我 们 听 到 (如 图 1-3 所 示 )。 





但 是 ， 若 两 种 声音 传 到 我 们 的 耳 休 里 的 时 送 小 于 80 著 秒 ， 我 们 就 无 
法 区 分 开 这 两 种 声音 了 ， 其 实在 日 常生 活 中 ， 人 耳 也 在 收集 回声 ， 只 不 
过 由 于 嗜 杂 的 外 界 环境 以 及 回声 的 分 贝 〈 衡 量 声音 能 量 值 大 小 的 单位 ) 
或 者 说 是 大 脑 能 接收 到 
日 分 辨 不 出 。 











自然 界 中 有 光 能 、 水 能 ， 生 活 中 有 有 机械能、 电能， 其 实 声音 也 可 以 
产生 能 量 ， 例 如 两 个 频率 相同 的 物体 ， 禹 击 其 中 一 个 物体 时 另 一 个 物体 
也 会 振动 发 声 〈 如 图 1-4 所 示 ) 。 





图 1-4 
这 种 现象 称 为 共 吗 ， 共 鸣 证 明了 声音 传播 可 以 市 动 另 一 个 物体 振 





动 ， 也 就 是 说 ， 声 音 的 传播 过 程 也 是 一 种 能 量 的 传播 过 程 。 


1.2 ”数字 音频 


1.1 节 主要 介绍 了 声音 的 物理 现象 以 及 声音 中 常见 的 概念 ， 也 为 后 
续 的 讲解 统一 了 术语 ， 从 本 节 开始 ， 我 们 将 进入 数字 音频 概念 的 介绍 。 


为 了 将 模拟 信号 数字 化 ， 本 节 将 分 3 个 概念 对 数字 音频 进行 讲解 ， 
分 别 是 采样 、 量 化 和 编码 。 首 先 要 对 模拟 信号 进行 采样 ， 所 谓 采 样 就 是 
在 时 间 轴 上 对 信号 进行 数字 化 。 根 据 奈 硅 斯 特定 理 〈( 也 称 为 采样 定 
理 ) ， 按 比 声音 最 高 频率 高 2 倍 以 上 的 频率 对 声音 进行 采样 “〈 也 称 为 AD 
转换 ) ，1.1 节 中 提 到 过 ， 对 于 高 质量 的 音频 信号 ， 其 频率 范围 〈《 人 耳 
能 够 听 到 的 频率 范围 ) 是 20Hz 一 20kHz， 所 以 采样 频率 一 般 为 
44.1kHz， 这 样 就 可 以 保证 采样 声音 达到 20kHz 也 能 被 数字 化 ， 从 而 使 得 
经 过 数字 化 处 理 之 后 ， 人 耳 听 到 的 声音 质量 不 会 被 降低 。 而 所 谓 的 
44.1kHz 就 是 代表 1 秒 会 采样 44100 次 (如 图 1-5 所 示 )。 


那么 ， 具 体 的 每 个 采样 义 该 如 何 表示 呢 ? 这 就 涉及 将 要 讲解 的 第 二 
个 概念 : 量化 。 量 化 是 指 在 幅度 轴 上 对 信号 进行 数字 化 ， 比 如 用 16 比 特 
的 二 进 制 信号 来 表示 声音 的 一 个 采样 ， 而 16 比 特 〈 一 个 short) 所 表示 的 
范围 是 [-32768，32767]， 共 有 65536 个 可 能 取 值 ， 因 此 最 终 模拟 的 音频 
信号 在 幅度 上 也 分 为 了 65536 层 〈 如 图 1-6 所 示 ) 。 












































ui (1) uo (1) 








既然 每 一 个 量化 都 是 一 个 采样 ， 那 么 这 么 多 的 采样 该 如 何 进行 存储 
呢 ? 这 就 涉及 将 要 讲解 的 第 三 个 概念 : 编码 。 所 谓 编码 ， 就 是 按照 一 定 
的 格式 记录 采样 和 量化 后 的 数字 数据 ， 比如 顺序 存储 或 压缩 存储 ， 等 


这 里 面 涉及 了 很 多 种 格式 ， 通 常 所 说 的 音频 的 裸 数 据 格 式 束 是 脉冲 
编码 调制 (Pulse Code Modulation，PCM) 数据 。 描 述 一 段 PCM 数 据 一 
般 需 要 以 下 几 个 概念 : 量化 格式 (sampleFormat) 、 采 样 率 
(sampleRate) 、 声 道 数 (channel) 。 以 CD 的 音质 为 例 : 量化 格式 (有 
的 地 方 描述 为 位 深度 ) 为 16 比 特 〈2 字 节 ) ， 采 样 率 为 44100， 声 道 数 为 
2， 这 些 信 息 就 描述 了 CD 的 音质 。 而 对 于 声音 格式 ， 还 有 一 个 概念 用 来 
描述 它 的 大 小 ， 称 为 数据 比特 率 ， 即 1 秒 时 间 内 的 比特 数目 ， 它 用 于 衡 
量 音频 数据 单位 时 间 内 的 容量 大 小 。 而 对 于 CD 音质 的 数据 ， 比 特 率 为 
多 少 昵 ? 计算 如 下 : 








44100 * 16 * 2 = 1378.125kbps 








那么 在 1 分 钟 里 ， 这 类 CD 音质 的 数据 需要 占据 多 大 的 存储 空间 呢 ? 
计算 如 下 : 





1378.125 * 60 / 8 / 1024 = 10.09MB 





当然 ， 如 果 sampleFormat 更 加 精确 《比如 用 4 字 节 来 描述 一 个 采 
样 ) ， 或 者 sampleRate 更 加 密集 〈 比 如 48kHz 的 采样 率 ) ， 那 么 所 占 的 
存储 空间 惑 会 更 大 ， 同 时 能 够 摘 述 的 声音 细节 束 会 越 精 确 。 存 储 的 这 段 
二 进 制 数 据 即 表示 将 模拟 信号 转换 为 数字 信号 了 ， 以 后 就 可 以 对 这 段 二 





进 制 数据 进行 存储 、 播 放 、 复 制 ， 或 者 进行 其 他 任何 操作 。 
麦 苑 风 是 如 何 采 集 声 音 的 


麦 元 风 里 面 有 一 层 碳 膜 ， 非 常 薄 而 且 十 分 敏感 。1.1 节 中 介绍 过 ， 
声音 其 实 是 一 种 纵波 ， 会 压缩 空气 也 会 压缩 这 层 碳 膜 ， 碳 膜 在 受到 挤 压 
时 也 会 发 出 振动 ， 在 碳 膜 的 下 方 就 是 一 个 电极 ， 碳 膜 在 振动 的 时 候 会 接 
触电 极 ， 接 触 时 间 的 长 得 和 频率 与 声波 的 振动 幅度 和 频率 有 关 ， 这 样 束 
完成 了 声音 信号 到 电信 号 的 转换 。 之 后 再 经 过 放大 电路 处 理 ， 就 可 以 实 
施 后 面 的 采样 量化 处 理 了 。 


前 面 提 到 过 分 贝 ， 那 么 什么 是 分 贝 昵 ? 分 贝 是 用 来 表示 声音 强度 的 
单位 。 日 常生 活 中 听 到 的 声音 ， 若 以 声 压 值 来 表示 ， 由 于 其 变化 范围 非 
常 大 ， 可 以 达到 六 个 数量 级 以 上 ， 同 时 由 于 我 们 的 耳 杀 对 声音 信号 强 弱 
刺激 的 反应 不 是 线性 的 (1.1 节 中 提 到 过 等 啊 曲 线 ) ， 而 是 时 对 数 比 例 
关系 ， 所 以 引入 分 贝 的 概念 来 表达 声学 量 值 。 所 谓 分 贝 是 指 两 个 相同 的 
物理 量 〈 例 如 ，A1 和 A0) 之 比 取 以 10 为 底 的 对 数 并 乘 以 10〈 或 20) ， 
即 : 




















1.3” 首 频 编码 


1.2 节 中 提 到 了 CD 音质 的 数据 采样 格式 ， 曾 计算 出 每 分 钟 需要 的 存 
储 空间 约 为 10.1MB， 如 果 仅 仅 是 将 其 存放 在 存储 设备 〈 光 私 、 硬 盘 ) 
中 ， 可 能 是 可 以 接受 的 ， 但 是 若 要 在 网 络 中 实时 在 线 传 播 的 话 ， 那 么 这 
个 数据 量 可 能 就 太 大 了 ， 所 以 必须 对 其 进行 压缩 编码 。 压 缩编 码 的 基本 
指标 之 一 就 是 压缩 比 ， 压 缩 比 通常 小 于 1 和 否则 就 没有 必要 去 做 压缩 ， 
因为 压缩 就 是 要 减 小 数据 容量 ) 。 压 缩 算 法 包括 有 损 压 缩 和 无 损 压 缩 。 
无 损 压 缩 是 指 解压 后 的 数据 可 以 完全 复原 。 在 常用 的 压缩 格式 中 ， 用 得 
较 多 的 是 有 损 压 缩 ， 有 损 压 缩 是 指 解压 后 的 数据 不 能 完全 复原 ， 会 丢失 
一 部 分 信息 ， 压 缩 比 越 小 ， 丢 失 的 信息 就 越 多 ， 信 和 号 还 原 后 的 失真 就 会 
越 大 。 根 据 不 同 的 应 用 场景 〈 包 括 存 储 设 备 、 传 输 网 络 环境 、 播 放 设 备 
等 ) ， 可 以 选用 不 同 的 压缩 编码 算法 ， 如 PCM、WAV、AAC、MP3、 
Ogg 等 。 


压缩 编码 的 原理 实际 上 是 压缩 挥 见 余 信 写 ， 克 余 信号 是 指 不 能 被 人 
耳 感 知 到 的 信号 ， 包 含 人 耳 听 觉 范 围 之 外 的 首 频 信号 以 及 被 掩蔽 挥 的 音 
频 信号 等 。 人 耳 听 和 觉 范 围 之 外 的 音频 信号 在 1.2 节 中 已 经 提 到 过 ， 上 所 以 
在 此 不 再 殉 述 。 而 被 掩蔽 挥 的 首 频 信 写 则 主要 是 因为 人 耳 的 掩蔽 效应 ， 
主要 表现 为 频 域 掩 蔽 效应 与 时 域 掩蔽 效应 ， 无 论 是 在 时 域 还 是 频 域 上 ， 
被 掩 散 折 的 声音 信和 号 都 被 认为 是 元 余 信 息 ， 不 进行 编码 处 理 。 


下 面 介绍 几 种 第 用 的 压缩 编码 格式 。 


(1) WAV 编 码 























PCM 〈 脉 冲 编码 调制 ) 是 Pulse Code Modulation 的 缩写 。 前 面 已 经 
介绍 过 PCM 大 人 致 的 工作 流程 ， 而 WAV 编 码 的 一 种 实现 (有 多 种 实现 方 
式 ， 但 是 都 不 会 进行 压缩 操作 ) 就 是 在 PCM 数 据 格式 的 前 面 加 上 44 字 
节 ， 分 别 用 来 接 述 PCM 的 采样 紊 、 声 道 数 、 数 据 格式 等 信息 。 

特点 : 音质 非常 好 ， 大 量 软件 都 支持 。 

适用 场合 : 多 媒体 开发 的 中 间 文 件 、 保 存 音乐 和 音效 素材 。 


(2) MP3 编 码 











MP3 具 有 不 错 的 压缩 比 ， 使 用 LAME 编 码 〈MP3 编 码 格式 的 一 种 实 
现 ) 的 中 高 码 率 的 MP3 文 件 ， 听 感 上 非常 接近 源 WAV 文 件 ， 当 然 在 不 
同 的 应 用 场景 下 ， 应 该 调整 合适 的 参数 以 达到 最 好 的 效果 。 


特点 : 音质 在 128Kbit/s 以 上 表现 还 不 错 ， 压 缩 比比 较 高 ， 大 量 软 件 
和 硬件 都 支持 ， 兼 容 性 好 。 


适用 场合 : 高 比特 率 下 对 兼容 性 有 要 求 的 音乐 欣赏 。 
(3) AAC 编 码 


AAC 是 新 一 代 的 音频 有 损 压 缩 技 术 ， 它 通过 一 些 附 加 的 编码 技术 
(比如 PS、SBR 等 ) ， 衍 生出 了 LC-AAC、HE-AAC、HE-AAC v2 三 种 
主要 的 编码 格式 。LC-AAC 是 比较 传统 的 AAC， 相 对 而 言 ， 其 主要 应 用 
于 中 高 码 率 场景 的 编码 (>80Kbit/s); HE-AAC (相当 于 AAC+SBR) 
主要 应 用 于 中 低 码 率 场 景 的 编码 (<80Kbits) ; 而 新 近 推出 的 HE-AAC 
v2 (相当 于 AAC+SBR+PS) 主要 应 用 于 低 码 率 场 景 的 编码 
C<48Kbits) 。 事 实 上 大 部 分 编码 器 都 设置 为 <48Kbits 自 动 启用 PS 技 
术 ， 而 >48Kbit/s 则 不 加 PS， 相 当 于 普通 的 HE-AAC。 


特点 : 在 小 于 128Kbit/s 的 码 率 下 表现 优异 ， 并 且 多 用 于 视频 中 的 音 
频 编码 。 


适用 场合 : 128Kbit/s 以 下 的 音频 编码 ， 多 用 于 视频 中 首 频 轨 的 编 
但 。 


(4) Ogg 编 码 


Ogg 是 一 种 非常 有 潜力 的 编码 ， 在 各 种 码 率 下 都 有 比较 优秀 的 表 
现 ， 尤 其 是 在 中 低 码 率 场景 下 。Ogg 除 了 音质 好 之 外 ， 还 是 完全 人 免费 
的 ， 这 为 Ogg 获 得 更 多 的 支持 打 好 了 基础 。Ogg 有 着 非常 出 色 的 算法 ， 
可 以 用 更 小 的 码 率 达 到 更 好 的 音质 ，128Kbit/s 的 Ogg 比 192Kbit/s 甚 至 更 
高 码 率 的 MP3 还 要 出 色 。 但 目前 因为 还 没有 媒体 服务 软件 的 支持 ， 因 此 
基于 Ogg 的 数字 广播 还 无 法 实现 。Ogg 目 前 受 支持 的 情况 还 不 够 好 ， 无 
论 是 软件 上 的 还 是 硬件 上 的 支持 ， 都 无 法 和 MP3 相 提 并 论 。 


特点 : 可 以 用 比 MP3 更 小 的 码 率 实现 比 MP3 更 好 的 音质 ， 高 中 低 码 
率 下 均 有 和 良好 的 表现 ， 兼 容 性 不 够 好 ， 流 媒体 特性 不 支持 。 









































适用 场合 : 语音 聊天 的 音频 消息 场景 。 


1.4 图 像 的 物理 现象 


在 学 习 了 音频 的 相关 概念 之 后 ， 现 在 开始 讨论 视频 ， 视 频 是 由 一 幅 
幅 图 像 组 成 的 ， 所 以 要 学 习 视 频 还 得 从 图 像 学 习 开 始 。 


与 首 频 的 学 习 方 法 类 似 ， 视 频 的 学 习 依然 是 从 图 像 的 物理 现象 开始 
回顾 ， 这 里 需要 回顾 一 下 小 学 做 过 的 三 棱镜 实验 ， 还 记得 如 何 利用 三 校 
镜 将 太阳 光 分 解 成 彩色 的 光 带 吗 ? 第 一 个 做 这 个 实验 的 人 是 牛顿 ， 各 色 
光 因 其 所 形成 的 折射 角 不 同 而 役 此 分 离 ， 束 像 彩虹 一 样 ， 所 以 白光 能 够 
分 解 成 多 种 色彩 的 光 。 后 来 人 们 通过 实验 证 明 ， 红 绿 赣 三 种 色光 无 法 被 
分 解 ， 故 称 为 三 原色 光 ， 等 量 的 三 原色 光 相 加 会 变 为 白光 ， 即 白光 中 含 
有 等 量 的 红 光 〈R) 、 绿 光 (G) 、 赣 光 (B) 。 


在 日 常生 活 中 ， 由 于 光 的 反射 ， 我 们 才能 看 到 各 类 物体 的 轮廓 及 凑 
色 。 但 是 如 果 将 这 个 理论 应 用 到 手机 上 ， 那 么 结论 还 是 这 个 样子 吗 ? 答 
案 是 人 否定 的 ， 因 为 在 黑暗 中 我 们 也 可 以 看 到 手机 屏幕 上 的 内 容 ， 实 际 上 
人 眼 能 看 到 手机 屏幕 上 的 内 容 的 原理 如 下 。 











假设 一 部 手机 屏幕 的 分 辩 率 是 1280x720， 说 明 水 平方 向 有 720 个 像 
素 点 ， 垂 直方 向 有 1280 个 像素 点 ， 所 以 整个 手机 屏幕 就 有 1280x720 个 像 
素 点 〈 这 也 是 分 辨 率 的 含义 ) 。 每 个 像素 点 都 由 三 个 子 像素 点 组 成 〈 如 
图 1-7 所 示 ) ， 这 些 密密麻麻 的 子 像素 点 在 显微镜 下 可 以 看 得 一 清二 
楚 。 当 要 显示 某 篇 文字 或 者 某 幅 图 像 时 ， 就 会 把 这 幅 图 像 的 每 一 个 像素 
0 
不 和 丛 1| o 


所 以 在 黑暗 的 环境 下 也 能 看 到 手机 屏幕 上 的 内 容 ， 古 因为 手机 屏 医 
征 目 发 光 的 ， 而 不 是 通过 光 的 反射 才 被 人 们 看 到 的 。 














1.5 图像 的 数值 表示 


1.5.1 RGB 表示 方式 


通过 1.4 市 的 讲解 ， 我 们 已 经 知道 任何 一 个 图 像 都 可 以 由 RGB 组 
成 ， 那 么 一 个 像 系 点 的 RGB 该 如 何 表示 呢 ? 音频 里 面 的 每 一 个 采样 
(sample) 均 使 用 16 个 比特 来 表示 ， 那 么 像素 里 面 的 子 像 系 义 该 如 何 表 
示 昵 ?常用 的 表示 方式 有 以 下 几 种 。 


浮 点 表示 : 取 值 范围 为 0.0 一 1.0， 比 如 ， 在 OpenGL ES 中 对 每 一 个 
子 像素 点 的 表示 使 用 的 就 是 这 种 表达 方式 。 


.整数 表示 : 取 值 范围 为 0 一 255 或 者 00 一 FF，8 个 比特 表示 一 个 子 像 
素 ，32 个 比特 表示 一 个 像素 ， 这 就 是 类 似 于 某 些 平 台 上 表示 图 像 格 式 的 
RGBA_8888 数 据 格 式 。 比 如 ，Android 平 台 上 RGB 565 的 表示 方法 为 16 
比特 模式 表示 一 个 像素 ，R 用 5 个 比特 来 表示 ，G 用 6 个 比特 来 表示 ，B 用 
5 个 比特 来 表示 。 


对 于 一 幅 图 像 ， 一 般 使 用 整数 表示 方法 来 进行 描述 ， 比 如 计算 一 张 
1280x720 的 RGBA_8888 图 像 的 大 小 ， 可 采用 如 下 方式 : 











1280 * 720 * 4 = 3.516MB 


这 也 是 位 图 (bitmap) 在 内 存 中 所 占用 的 大 小 ， 所 以 每 一 张 图 像 的 
裸 数 据 都 是 很 大 的 。 对 于 图 像 的 裸 数 据 来 讲 ， 直 接 在 网 络 上 进行 传输 也 
是 不 太 可 能 的 ， 所 以 就 有 了 图 像 的 压缩 格式 ， 比 如 JPEG 压 缩 : JPEG 是 
静态 图 像 压 缩 标 准 ， 由 ISO 制定 。JPEG 图 像 压 缩 算 法 在 提供 良好 的 压缩 
性 能 的 同时 ， 具 有 较 好 的 重建 质量 。 这 种 算法 被 广泛 应 用 于 图 像 处 理 领 
域 ， 当 然 其 也 是 一 种 有 损 压 缩 。 在 很 多 网 站 如 淘宝 上 使 用 的 都 是 这 种 压 
缩 之 后 的 图 片 ， 但 是 ， 这 种 压缩 不 能 直接 应 用 于 视频 压缩 ， 因 为 对 于 视 
频 来 讲 ， 还 有 一 个 时 域 上 的 因素 需要 考虑 ， 也 就 是 说 ， 不 仅仅 要 考虑 帧 
内 编码 ， 还 要 考虑 帧 间 编 码 。 视 频 采 用 的 是 更 成 熟 的 算法 ， 关 于 视频 压 
缩 算法 的 相关 内 容 将 会 在 后 续 章 节 〈1.6 节 ) 进行 介绍 。 














1.5.2 YUV 表 示 方 式 


对 于 视频 帧 的 裸 数 据 表 示 ， 其 实 更 多 的 是 YUV 数 据 格 式 的 表示 ， 
YUV 主 要 应 用 于 优化 彩色 视频 信号 的 传输 ， 使 其 向 后 兼容 老式 黑白 电 
视 。 与 RGB 视频 信号 传输 相 比 ， 它 最 大 的 优点 在 于 只 需要 占用 极 少 的 频 
宽 (RGB 要 求 三 个 独立 的 视频 信号 同时 传输 ) 。 其 中 *Y” 表 示 明 亮度 

CLuminance 或 Luma) ， 也 称 灰 阶 值 ， 而 “U” 和 "“V” 表 示 的 则 是 色 度 
CChrominance 或 Chroma) ， 它 们 的 作用 是 描述 影像 的 色彩 及 饱和 度 ， 
用 于 指定 像素 的 颜色 。 “亮度 ”是 透 过 RGB 输入 信和 号 来 建立 的 ， 方 法 是 将 
RGB 信号 的 特定 部 分 登 加 到 一 起 。“ 色 度 ” 则 定义 了 颜色 的 两 个 方面 一 一 
色调 与 饱和 度 ， 分 别 用 Cr 和 Cb 来 表示 。 其 中 ，Cr 反 映 了 RGB 输入 信和 号 
红色 部 分 与 RGB 信号 亮度 值 之 间 的 差异 ， 而 Cb 反 映 的 则 是 RGB 输入 信 
号 赣 色 部 分 与 RGB 信和 号 亮度 值 之 间 的 差异 。 


之 所 以 采用 YUV 色 彩 空间 ， 是 因为 它 的 亮度 信号 Y 和 人 色 度 信号 U、 

V 是 分 离 的 。 如 果 只 有 Y 信 号 分 量 而 没有 U、YV 分 量 ， 那 么 这 样 表示 的 图 
像 就 是 黑白 灰 度 图 像 。 彩 色 电 视 采 用 YUV 衬 间 正 是 为 了 用 亮度 信号 Y 解 
决 彩色 电视 机 与 黑白 电视 机 的 兼容 问题 ， 使 黑白 电视 机 也 能 接收 彩色 电 
视 信 号 ， 最 常用 的 表示 形式 是 Y、U、V 都 使 用 8 个 字 节 来 表示 ， 所 以 取 
值 范围 就 是 0 一 255。 在 广播 电视 系统 中 不 传输 很 低 和 很 高 的 数值 ， 实 际 
上 是 为 了 防止 信号 变动 造成 过 载 ， 因 而 把 这 “两 边 ” 的 数值 作为 “保护 

珊 ”， 不 论 是 Rec.601 还 是 BT.709 的 广播 电视 标准 中 ，Y 的 取 值 范围 都 是 
16 一 235，UV 的 取 值 范围 都 是 16 一 240。 


YUV 最 常用 的 采样 格式 是 4: 2: 0，4: 2: 0 并 不 意味 着 只 有 Y、Cb 
而 没有 Cr 分 量 。 它 指 的 是 对 每 行 扫描 线 来 说 ， 只 有 一 种 色 度 分 量 是 以 
2: 1 的 抽样 率 来 存储 的 。 相 邻 的 扫描 行 存 储 着 不 同 的 色 度 分 量 ， 也 就 是 
说 ， 如 果 某 一 行 是 4: 2: 0， 那 么 其 下 一 行 就 是 4: 0: 2， 再 下 一 行 是 
4: 2: 0， 以 此 类 推 。 对 于 每 个 色 度 分 量 来 说 ， 水 平方 同和 竖 直 方向 的 
抽样 率 都 是 2: 1， 所 以 可 以 说 色 度 的 抽样 率 是 4: 1。 对 非 压 缩 的 8 比特 
量化 的 视频 来 说 ，8x4 的 一 张 图 片 需要 占用 48 字 节 的 内 存 〈 如 图 1-8 所 
示 ) 
































图 1-8 


相 较 于 RGB， 我 们 可 以 计算 一 帧 为 1280x720 的 视频 帧 ， 用 
YUV420P 的 格式 来 表示 ， 其 数据 量 的 大 小 如 下 : 





1280 * 720 * 1 + 1280 * 720 * 0.5 = 1.318MB 





如 果 fps (1 秒 的 视频 帧 数目 ) 是 24， 按 照 一 般 电 影 的 长 度 90 分 钟 来 
Wg A 其 数据 量 的 
小 束 是 : 





1.318MB * 24fps * 90min * 60s = 166.8GB 











所 以 仅 用 这 种 方式 来 存储 电影 肯定 是 不 可 行 的 ， 更 别 说 在 网 络 上 进 
行 流 媒体 播放 了 ， 那 么 如 何 对 电影 进行 存储 以 及 流 媒 体 播 放 呢 ? 管 案 古 
需要 进行 视频 编码 ， 下 一 市 将 会 讨论 视频 的 编码 。 





1.5.3 YUV 和 RGB 的 转化 


前 面 已 经 讲 过 ， 凡 是 泻 染 到 屏幕 上 的 东西 〈 文 字 、 图 片 或 者 其 
他 ) ， 都 要 转换 为 RGB 的 表示 形式 ， 那 么 YUV 的 表示 形式 和 RGB 的 表 
示 形 式 之 间 是 如 何 进行 转换 的 呢 ? 对 于 标清 电视 601 标 准 ， 它 从 YUV 转 
换 到 RGB 的 公式 与 高 清 电 视 709 的 标准 是 不 同 的 ， 通 过 如 下 的 计算 〈 如 
图 1-9 和 图 1-10) 即 可 得 知 。 


标清 电视 使 用 标准 BT.601 


0.299 0.587 0.114 人 
-0.14713 -0.28886 ”0.430 G 


0.013 -0.31499 -0.10001. LB 
] 0 1 .13983 | | YY 


-0.3J9405 -0.58060 | IU 
2.0321] 0 V 





局 清 电视 使 用 标准 BT.709 
0.2126 0.7152 ”0.0722 
-0.09991 -0.33609 0.436 | |G 


04.015 -0.3380] -0;05039] [|B 
| 0 1 .28033 | | 六 


-0.21482 -0.380539| | 
a2 0 六 





图 1-10 


那么 什么 时 候 该 用 哪 一 种 转换 呢 ? 比较 典型 的 场景 是 在 iDOS 平 台中 
使 用 摄像 头 采 集 出 YUV 数 据 之 后 ， 上 传 显 卡 成 为 一 个 纹理 ID， 这 个 时 
候 就 需要 做 YUV 到 RGB 的 转换 (具体 的 细节 会 在 后 面 的 章节 中 详细 讲 
解 ) 。 在 iOS 的 摄像 头 采 集 出 一 帧 数据 之 后 《CMSampleBufferRef) ， 我 
们 可 以 在 其 中 调用 CVBufferGetAttachment 来 获取 YCbCrMatrix， 用 于 决 
定 使 用 哪 一 个 矩阵 进行 转换 ， 对 于 Android 的 摄像 头 ， 由 于 其 是 直接 纹 
理 ID 的 回调 ， 所 以 不 涉及 这 个 问题 。 其 他 场景 下 需要 大 家 自行 寻找 对 应 
的 文档 ， 以 找 出 适合 的 转换 矩阵 进行 转换 。 





1.6 ”视频 的 编码 方式 
1.6.1 ”视频 编码 


还 记得 前 面 讨论 的 音频 压缩 方式 吗 ? 音频 压缩 主要 是 去 除 元 余 信 
恩 ， 从 而 实现 数据 量 的 压缩 。 那 么 对 于 视频 压缩 ， 又 该 从 哪 几 方面 来 对 
数据 进行 压缩 呢 ? 其 实 与 前 面 提 到 的 音频 编码 类 似 ， 视 频 压缩 也 是 通过 
去 除 元 余 信 息 来 进行 压缩 的 。 相 较 于 音频 数据 ， 视 频数 据 有 极 强 的 相关 
ee 大 量 的 元 余 信息 ， 包 括 空 间 上 的 元 余 信 息 和 时 间 上 的 元 


使 用 帧 间 编 码 技术 可 以 去 除 时 间 上 的 见 余 信息 ， 具 体 包括 以 下 儿 个 


部 分 。 


运动 补偿 : 运动 补偿 是 通过 先前 的 局 部 图 像 来 预测 、 补 偿 当 前 的 
局 部 图 像 ， 它 是 减少 帧 序列 见 余 信息 的 有 效 方法 。 


运动 表示 : 不 同 区 域 的 图 像 需 要 使 用 不 同 的 运动 天 量 来 描述 运动 


Ex 
信息 。 


运动 估计 : 运动 估计 是 从 视频 序列 中 抽取 运动 信息 的 一 整套 技 














了 Ht 











使 用 帧 内 编码 技术 可 以 去 除 空间 上 的 元 余 信 息 。 


还 记得 前 面 提 到 过 的 图 像 编 码 标准 JPEG 吗 ? 对 于 视频 ，ISO 同 样 也 
制定 了 标准 : Motion JPEG 即 MPEG，MPEG 算 法 是 适用 于 动态 视频 的 压 
缩 算法 ， 它 除了 对 单 幅 图 像 进 行 编码 外 ， 还 利用 图 像 序列 中 的 相关 原则 
去 除 元 余 ， 这 样 可 以 大 大 提高 视频 的 压缩 比 。 截 至 目前 ，MPEG 的 版 本 
一 直 在 不 断 更 新 中 ， 主 要 包括 这 样 几 个 版 本 Mpegl (用 于 VCD) 、 
Mpeg2 (用 于 DVD) 、Mpeg4 AVC 现在 流 媒 体 使 用 最 多 的 就 是 它 
于 了 


相 比 较 于 ISO 制定 的 MPEG 的 视频 压缩 标准 ，ITU-T 制 定 的 H.261、 
H.262、H.263、H.264 一 系列 视频 编码 标准 是 一 套 单独 的 体系 。 其 中 ， 
H.264 集 中 了 以 往 标准 的 所 有 优点 ， 并 吸取 了 以 往 标准 的 经 验 ， 采 用 的 
是 简洁 设计 ， 这 使 得 它 比 Mpeg4 更 容易 推广 。 现 在 使 用 最 多 的 就 是 








H.264 标 准 ，H.264 创 造 了 多 参考 帧 、 多 块 类 型 、 整 数 变 换 、 帧 内 预测 等 
新 的 压缩 技术 ， 使 用 了 更 精细 的 分 像素 运动 矢量 (14、L18) 和 新 一 代 
的 环 路 滤波 器 ， 这 使 得 压缩 性 能 得 到 大 大 提高 ， 系 统 也 变 得 更 加 完善 。 


1.6.2 ”编码 概念 
1.IPB 帧 


视频 压缩 中 ， 每 帧 都 代表 痢 一 幅 静 止 的 图 像 。 而 在 进行 实际 压缩 
总 会 采取 各 种 算法 以 减少 数据 的 容量 ， 其 中 IPB 帧 束 是 最 第 见 的 一 
种 。 


由 帧 内 编码 帧 (intra picture〉，I 帧 通常 是 每 个 GOP (MPEG 所 
使 用 的 一 种 视频 压缩 技术 ) 的 第 一 个 帧 ， 经 过 适度 地 压 绑 ， 作 为 随机 访 
问 的 参考 点 ， 可 以 当成 静态 图 像 。I 帧 可 以 看 作 一 个 图 像 经 过 压缩 后 的 
产物 ， 项 压缩 可 以 得 到 6: 1 的 压缩 比 而 不 会 产生 任何 可 学 察 的 模糊 现 
象 。 项 压缩 可 去 抒 视 频 的 衬 间 元 余 信 息 ， 下 面 即将 介绍 的 P 帧 和 B 帧 是 
为 了 去 掉 时 间 元 余 信 息 。 


:P 帧 ， 前 向 预测 编码 帧 〈predictive-frame) ， 通 过 将 图 像 序列 中 前 
面 已 编码 帧 的 时 间 元 余 信息 充分 去 除 来 压缩 传输 数据 量 的 编码 图 像 ， 也 
称 为 预测 帧 。 

:B 帧 ， 双 向 预测 内 插 编码 帧 (bi-directional interpolated prediction 
frame) ， 既 考虑 源 图 像 序列 前 面 的 已 编码 帧 ， 又 顾及 源 图 像 序列 后 面 
的 已 编码 帆 之 间 的 时 间 元 余 信 息 ， 来 压缩 传输 数据 量 的 编码 图 像 ， 也 称 
为 双 问 预测 帧 。 

基于 上 面 的 定义 ， 我 们 可 以 从 解码 的 角度 来 理解 IPB 帧 。 


并 帧 自身 可 以 通过 视频 解压 算法 解压 成 一 张 单独 的 完整 视频 画面 ， 
所 以 项 去 掉 的 是 视频 帧 在 空间 维度 上 的 元 余 信 息 。 


P 帧 需要 参考 其 前 面 的 一 个 本 由 或 者 P 帧 来 解码 成 一 张 完整 的 视频 夯 











B 帧 则 需要 参考 其 前 一 个 1 帧 或 者 P 帧 及 其 后 面 的 一 个 P 帧 来 生成 一 
2 所 以 P 帧 与 B 帧 去 抒 的 是 视频 帧 在 时 间 维 度 上 的 元 


IDR 帧 与 I 帧 的 理解 


在 H264 的 概念 中 有 一 个 帧 称 为 IDR 帧 ， 那 么 IDR 帧 与 I 帧 的 区 别 是 什 
么 呢 ? 首先 来 看 一 下 IDR 的 英文 全 称 instantaneous decoding refresh 
picture， 因 为 H264 采 用 了 多 帧 预测 ， 所 以 I 怖 之 后 的 P 帧 有 可 能 会 参考 I 
帧 之 前 的 帧 ， 这 束 使 得 在 随机 访问 的 时 候 不 能 以 找到 项 作为 参考 条 
件 ， 因 为 即使 找到 I 帧 ，I 帧 之 后 的 帧 还 是 有 可 能 解析 不 出 来 ， 而 IDR 帧 
就 是 一 种 特殊 的 I 帧 ， 即 这 一 帧 之 后 的 所 有 参考 帧 只 会 参考 到 这 个 IDR 
帧 ， 而 不 会 再 参考 前 面 的 帧 。 在 解码 器 中 ， 一 旦 收 到 一 个 IDR 帧 ， 就 会 
立即 清理 参考 帧 缓冲 区 ， 并 将 IDR 帧 作为 被 参考 的 帧 。 


2.PTS 与 DTS 


DTS 主 要 用 于 视频 的 解码 ， 英 文 全 称 是 Decoding Time Stamp，PTS 
主要 用 于 在 解码 阶段 进行 视频 的 同步 和 输出 ， 全 称 是 Presentation Time 
Stamp。 在 没有 B 帧 的 情况 下 ，DTS 和 PTS 的 输出 顺序 是 一 样 的 。 因 为 B 
帧 打 乱 了 解码 和 显示 的 顺序 ， 所 以 一 旦 存在 B 帧 ，PTS 与 DTS 势 必 就 会 
不 同 ， 本 书后 边 的 章节 里 会 详细 讲解 如 何 结合 硬件 编码 器 来 重新 设置 
PTS 和 DTS 的 值 ， 以 便 将 硬件 编码 器 和 FFmpeg 结 合 起 来 使 用 。 这 里 先 简 
单 介绍 一 下 FFmpeg 中 使 用 的 PTS 和 DTS 的 概念 ，FFmpeg 中 使 用 
AVPacket 结 构 体 来 描述 解码 前 或 编码 后 的 压缩 数据 ， 用 AVFrame 结 构 体 
来 描述 解码 后 或 编码 前 的 原始 数据 。 对 于 视频 来 说 ，AVFrame 就 是 视频 
的 一 帧 图 像 ， 这 帧 图 像 什么 时 候 显 示 给 用 户 ， 取 决 于 它 的 PTS。DTS 是 
AVPacket 里 的 一 个 成 员 ， 表 示 该 压缩 包 应 该 在 什么 时 候 被 解码 ， 如 果 视 
频 里 各 帧 的 编码 是 按 输 入 顺序 (显示 顺序 ) 依次 进行 的 ， 那 么 解码 和 显 
示 时 间 应 该 是 一 致 的 ， 但 是 事实 上 ， 在 大 多 数 编 解码 标准 (如 H.264 或 
HEVC) 中 ， 编 码 顺序 和 输入 顺序 并 不 一 致 ， 于 是 才 会 需要 PTS 和 DTS 
这 两 种 不 同 的 时 间 戳 。 


3.GOP 的 概念 


两 个 I 帧 之 间 形 成 的 一 组 图 片 ， 束 是 GOP (Group Of Picture) 的 概 
仿 。 通 常 在 为 编码 器 设置 参数 的 时 候 ， 必 须要 设置 gop_size 的 值 ， 其 代 
表 的 是 两 个 I 帧 之 间 的 帧 数目 。 前 面 已 经 讲解 过 ， 一 个 GOP 中 容量 最 大 
的 帧 就 是 I 帧 ， 所 以 相对 来 讲 ，gop_size 设 置 得 越 大 ， 整 个 画面 的 质量 就 
会 越 好 ， 但 是 在 解码 端 必须 从 接收 到 的 第 一 个 1 帧 开始 才 可 以 正确 解码 
出 原始 图 像 ， 否 则 会 无 法 正确 解码 〈 这 也 是 前 面 提 到 的 其 可 以 作为 随 
机 访问 的 帧 ) 。 在 提高 视频 质量 的 技巧 中 ， 还 有 个 技巧 是 多 使 用 也 帧 ， 
一 般 来 说 ，I 的 压缩 率 是 7〈 与 JPG 差 不 多 ) ，P 是 20，B 可 以 达到 50， 可 
见 使 用 B 帧 能 市 省 大 量 空间 ， 市 省 出 来 的 空间 可 以 用 来 更 多 地 保存 I 帧 ， 


























这 样 束 能 在 相同 的 码 率 下 提供 更 好 的 画 质 。 所 以 我 们 要 根据 不 同 的 业务 
场景 ， 适 当地 设置 gop_size 的 大 小 ， 以 得 到 更 高 质量 的 视频 。 


结合 IPB 帧 和 图 1-11， 相 信 大 家 能 够 更 好 地 理解 PTS 与 DTS 的 概念 。 


处 二 








图 1-11 


1.7 本 章 小 结 


本 章 的 内 容 到 此 结束 ， 这 里 简单 复习 一 下 要 点 。 本 章 首先 介绍 了 音 
频 的 物理 现象 ， 进 而 研究 如 何 存储 以 及 编码 音频 ， 然 后 又 讨论 了 图 像 的 
物理 现象 ， 从 RGB 到 YUV， 最 后 讲解 了 视频 的 编码 操作 。 本 章 的 内 容 
理论 和 概念 比较 多 ， 难 免 会 枯燥 一 些 ， 但 是 了 解 这 些 概 念 是 必需 的 。 其 
实 本 章 讲解 的 东西 若 想 要 继续 深究 ， 还 是 有 很 多 可 供 研究 的 ， 由 于 本 书 
的 核心 是 应 用 层 的 开发 ， 因 此 就 不 考虑 展开 来 讲 了 。 对 于 应 用 层 的 开发 
人 员 来 说 ， 掌 握 本 章 的 内 容 就 已 经 足够 了 ， 若 想 要 进一步 了 解 相 关 的 知 
识 ， 可 自行 参考 其 他 资料 。 








第 2 蔓 ” 移 动 端 环境 搭建 


第 1 章 学 习 了 音 视 频 的 基础 知识 ， 本 章 将 介绍 如 何在 移动 端 〈 包 括 
iOS 和 Android 两 个 平台 ) 搭建 开发 音 视频 的 环境 ， 以 及 如 何在 每 一 个 平 
台 的 开发 环境 中 添加 C++ 文 持 。 由 于 篇 幅 有 限 ， 在 搭建 开发 环境 时 ， 本 
章 将 只 以 Mac OS 操作 系统 为 例 进行 讲解 ， 对 于 Linux、Windows 等 操作 
系统 的 读者 ， 需 要 大 家 目 行 将 各 种 开发 环境 适 配 到 对 应 的 系统 中 。 但 
是 ， 书 中 所 有 项 目的 设计 与 实现 是 不 区 分 开发 系统 环境 的 。 


主音 视频 的 开发 过 程 中 ， 不 可 能 所 有 的 编码 、 解 码 以 及 处 理 都 由 开 
发 者 从 零 开始 编写 ， 因 此 免不了 会 用 到 一 些 第 三 方 库 ， 所 以 本 章 还 将 讲 
解 交 叉 编译 ， 并 沦 试 交叉 编译 几 个 音 视 频 相 关 的 开源 库 。 在 本 章 的 最 
后 ， 会 使 用 LAME 这 个 开源 的 MP3 编 码 库 在 iOS 平 台 和 Android 平 台 上 将 
一 个 PCM 文 件 编码 为 MP3 文 件 ， 最 终 将 编码 后 的 MP3 文 件 发 送 到 电脑 上 
即 可 进行 播放 ， 这 也 是 本 章 要 完成 的 最 终 目 标 。 




















2.1 在 iOS 上 如 何 搭建 一 个 基础 项 目 
1. 新 建 一 个 iOS 项 目 


首先 ， 在 Xcode 中 选择 新 建 一 个 项 目 ， 会 弹出 如 图 2-1 所 示 的 界面 ， 
然后 我 们 选择 一 个 新 项 目的 模板 ， 一 般 选 择 Single View Application 模 
板 。 


之 后 点 击 Next， 进 入 图 2-2 所 示 的 界面 ， 这 里 需要 键入 产品 的 名 字 
及 包 名 ， 注 意 产品 的 名 字 将 作为 安装 到 用 户 手机 上 的 应 用 名 称 ， 包 名 则 
是 该 应 用 的 唯一 标识 ， 键 入 完毕 之 后 点 击 Next。 


完成 上 述 步骤 之 后 ， 就 完成 了 一 个 iOS 项 目的 创建 。 碍 看 该 项 目的 
工程 文件 ， 会 看 到 Xcode 默认 是 以 Story board 的 形式 构建 的 界面 部 分 ， 
由 于 我 们 不 希望 使 用 这 种 形式 来 构建 界面 ， 而 是 希望 使 用 xib 的 形式 来 
构建 界面 ， 所 以 要 在 Main ” Interface 选项 中 删除 其 中 的 内 容 ， 如 图 2-3 所 
示 。 


Choose a template for your new project: 




















EE 
四 watchOS tvOS ”macOS Cross-platform Q 
Application 

Single View Game Master-Detail Page-Based Tabbed 

Application Application Application Application 
59 9 

口 口 
Sticker Pack iMessage 
Application Application 
Framework & Library 

中 i 半 

Cocoa Touch Cocoa Touch Metal Library 

Framework Static Library 








Cancel DreviOus 
图 2-1 


Choose options for your new project: 


Product Name: PhuketTour 


《> 


Team: None 





Organization Name: xiaokai.zhan 


Organization Identifier: com.changba.audio.encoder 


Bundle ldentifier: com.changba.audio.encoder.PhuketTour 


《> 


Language: Objective-C 





《> 


Devices: iPhone 





[| | Use Core Data 
Vv Include Unit Tests 
IV] Include UI Tests 





Cancel Previous 


Next 





图 2-2 





aAAOBDR ly 四 phuketfour (BA) 


General Capabilities Resource Tags Info Build Settings Build Phases CBuildRules 


7 国 phuetiour pROJECT Provisioning Profile Xcode Managed Profle ©) 
Delegate,h 
hy Nooo @ phuketTour Signing Certiticate iphone Developer: duanhaolxc@126.com (FSERS.. 
Mm, AppDelegate,m 
hi ViewController,h TARGETS 
m ViewControllerm 从 phuletour Y Deployment Info 
Main.storyboard phuketTourTests y 
~ Deployment Target 
图 Assetsxcassets [I phuketTourUITests 
日 LaunchScreen storyboard Devices «jphone | 
Info,plist M 
本 i Main Interface 日 
图 Supporting Files 
PhuketTourTests Device Orientation 加 Portrait 
» MN phuketTourUITests 了 ] Upside Down 
pM Products Landscape Left 
Landscape Right 
Status Bar Style Default | 


"| Hide status bar 
"| Requires full screen 


图 2-3 


接 下 来 ， 再 建立 一 个 界面 文件 作为 应 用 的 第 一 个 界面 ， 而 在 iOS 中 
一 个 界面 就 是 一 个 xib 文 件 ， 如 图 2-4 所 示 。 


Choose atemplate for your new file: 





【RN watchos ty0OS macOs © 


Source 


四 六 a 


Cocoa Touch Ul Test Case Unit Test Case Playground Swift File 
Class Class Class 
m h € Ch NN 
Objective-C File Header File C File C++ File Metal File 


User Interface 


yy ] 





Storyboard Empty Launch Screen 
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图 2-4 


然后 点 击 Next， 进 入 图 2-5 所 示 的 界面 ， 键 入 该 xib 的 名 字 ， 然 后 选 
择 Target 为 主 工程 ， 点 击 Create。 


现在 ， 打 开 访 xib 文 件 ， 如 图 2-6 所 示 ， 首 先 要 在 Placeholders 选 项 下 
面 的 File’s Owner 中 连接 视图 中 的 view， 然 后 设 定 Class 的 值 为 


ViewController 类 。 

















四 四 | 苗 目 一 | 儿 可 人 PhuketTour 2 几 Q Search 





Favorites Ih AppDelegate.h 

= m AppDelegate.m 

Sy | Assets.xcassets » 

OD icloud Drive | Base.lproj 
Applications =) Info.plist 

六 m main.m 

鲁 | Pictures hy ViewController.h 

日 Movies m ViewController.m 











A PhuketTour 
DD © phuketTourTests 
口 5) PhuketTourUlTests 





图 2-5 


名 《 » phuketrour) MM PhuketTour) BO ViewControlerxib ) (3 File's Owner (bh) 外国 暑 有 上 0 






placeholders Custom Class 
得 Fles Owner Files Owner Class ViewControler 
由 First Responder v Outlets Module 
S88fchDisplayController 
VView 
USer Defined Runtime Attributes 
B Encode Y Referencing Outlets 
New Reterencing Outlet KeyPath Type Vale 
Y Referencing Outlet Collections 
New Referencing Outlet Collection 
+ 


Document 


图 2-6 
iOS 程 序 运 行 的 时 候 其 入 口 是 main.m， 但 是 苹果 公司 不 希望 开发 者 





修改 该 文件 ， 而 是 要 求 开 发 者 去 修改 应 用 的 入 口 一 -AppDelgate.m 文 
件 ， 访 文件 中 提供 了 各 种 生命 周期 方法 ， 应 用 局 动 的 时 候 将 会 触发 的 方 
法 是 application: didFinishLaunchingWithOptions， 所 以 修改 该 生命 周期 
方法 的 代码 如 下 : 





self.window = [[UIWindow alloc] initwithFrame:[[UIScreen mainScreen] 
bounds]]; 

UINavigationController *navigationController = [[UINavigationController 
alloc] initwithRootViewController:[[ViewController alloc] 
initwithNibName:@"ViewController" bundle:nil]]; 

self .window.rootViewController = navigationController; 

[self .window makeKeyAndVisible]; 





接 下 来 要 为 该 xib 拖 入 一 个 Encode 按 钮 ， 并 且 将 该 按钮 的 点 击 事件 
委托 给 ViewController 中 的 startEncode 方 法 ， 如 图 2-7 所 示 。 


闪 PhuketTowr 六 Generici0SDavice Finished running PhuketTour on iphone6 plus 有 1 三 办 | 全 
phuketTour ) 3 ViewControllerxio ) View 《和 》| 昭 Automatic ) m ViewControlerm ) 国 @implementation ViewControler 《2) + x 站 全 国电 
Custom Class 
Class 
Module 
ldentity 
Restoration ID 
User Defined Runtime Attribt 
KeyPath Type W 
0 0 0 
Document 
0 
0 Encode Label 
0 0 0 x 
4 Object ID INO-|3-epB 
ViewController | 
| Loek Inherited - | 
了 4 D Notes 三 三 三: 
1 - (void)viewDidLoad { 
8 ]， 
Connection | 
Object 四 FlesoOwner 
Name startEncodd Ac8ssibiltty 
Te id Simulated App Context 
Event | Touch Up Inside , Simulate None 
Arguments | Sender 4 4 
3 - (void)didRecelveMemoryWarning { 
Cancel Connect | 





]; 


图 2-7 


startEncode 方 法 提供 了 NSLog 来 输出 


项 目 Ed 点 


建成 功 了 。 


2.CocoaPods 的 介绍 与 使 用 


开发 应 用 的 时 候 ， 并 不 是 所 有 的 基础 功能 都 由 开发 者 从 零 


尔 日 去 信 自 





击 Encode 按 钮 ， 如 果 可 以 看 到 正常 的 日 


然后 运行 整个 
则 说 明 项 目 搭 


下 日 志 口 4 o 
= 自 


a 
AN 百 v 


始 开 


发 ， 所 以 经 常会 用 到 第 三 方 开源 类 库 。 一 定 要 记 住 ， 不 要 重复 造 轮子 ! 
不 过 ， 在 引用 这 些 类 库 时 ， 可 能 会 出 现 几 个 令 人 头疼 的 问题 : 第 一 是 所 
引用 的 第 三 方 类 库 有 可 能 需要 依赖 于 其 他 的 第 三 方 类 库 ; 第 二 是 需要 使 
用 已 引用 库 的 新 功能 ， 需 要 了 解 该 类 库 对 应 的 版 本 号 ， 并 且 该 类 库 对 其 
所 依赖 的 其 他 第 三 方 类 库 可 能 也 有 版 本 的 要 求 。 如 果 我 们 仅仅 是 复制 粘 
贴 ， 那 将 会 非常 麻烦 ， 尤 其 是 对 于 大 型 项 目 来 说 ， 有 时 甚至 可 能 会 是 一 
种 灾难 。 所 以 在 Java Web 的 开发 中 ， 大 家 通常 使 用 Maven 来 构建 项 目 。 
选择 Maven， 一 方面 是 基于 项 目的 依赖 关系 ， 另 一 个 重要 的 原因 就 是 为 
了 方便 引用 第 三 方 的 类 库 。 对 于 Android 的 应 用 开发 ， 现 在 使 用 最 多 的 
就 是 Gradle， 一 方面 是 出 于 打包 的 需求 ， 另 一 方面 也 是 为 了 满足 引用 第 
三 方 库 的 需要 。 对 于 iOS 应 用 呢 ? 使 用 最 多 的 则 是 CocoaPods， 它 可 以 为 
开发 者 提供 引用 众多 第 三 方 类 库 的 功能 ， 比 如 JSONKit、AFNetWorking 
等 


























了 解 了 CocoaPods 的 作用 之 后 ， 接 下 来 就 是 学 习 如 何 安 装 和 使 用 
CocoaPods 来 引用 第 三 方 库 。 


(1) 安装 CocoaPods 


首先 要 安装 好 Ruby 环 境 ，Mac 机 器 上 已 经 自 带 了 Ruby 环 境 ， 如 果 是 
其 他 的 开发 系统 ， 请 读者 自行 安装 ， 关 于 如 何 安装 Ruby 环 境 ， 互 联网 上 
提供 了 大 量 的 资料 。 安 装 完 Ruby 环 境 之 后 ， 使 用 如 下 命令 就 可 以 安装 
CocoaPods 了: 











Sudo gem install cocoapods 





如 果 执 行 上 述 命令 之 后 很 长 时 间 都 没有 反应 ， 那 么 可 能 是 gem 所 使 
用 的 默认 源 有 问题 ， 可 以 使 用 淘宝 提供 的 源 来 安装 CocoaPods， 有 具体 的 
做 法 是 先 删除 掉 默 认 的 源 ， 操 作 命 令 如 下 : 





gem sources --remove https://rubygems.org/ 





然后 符 换 上 新 的 源 ， 命 令 如 下 : 





gem sources -a http://rubygems-china.oss.aliyuncs.com 





此 时 ， 可 以 执行 以 下 命令 来 查看 现在 的 源 到 底 是 什么 : 





gem Sources -1 





如 打出 现下 面 的 内 容 则 说 明 源 更 改 成 功 了 : 





** CURRENT SOURCES *** 
http://rubygems-china.oss.aliyuncs.com 





此 时 ， 再 一 次 在 终端 执行 安装 CocoaPods 的 命令 





Sudo gem install cocoapods 





稍 等 片刻 ， 就 可 以 将 CocoaPods 下 载 到 本 地 并 且 安 装 成 功 了 。 
(2) 使 用 CocoaPods 
前 面 提 到 过 CocoaPods 是 用 来 管理 第 三 方 库 的 工具 ， 那 么 它 是 如 何 
判断 项 目 需要 依赖 哪 一 个 第 三 方 库 的 呢 ? 答案 是 根据 根 目录 F 名 为 
Podfile 的 配置 文件 来 获知 的 。 因 此 该 配置 文件 的 语法 以 及 如 何 编写 该 配 
置 文件 自然 就 成 了 本 章节 学 习 的 重点 ， 下 面 一 起 来 看 一 下 。 


首先 输入 平台 系统 的 要 求 : 























platform :ios, '7.0' 








述 命令 代表 项 目 运 行 在 iOS 7.0 平 台 之 上 ， 配 置 文件 从 第 二 行 开始 
就 会 和 一 个 从 target'Project Name'do 到 end 的 代码 块 ， 该 代码 块 将 用 于 
配置 具体 要 引入 的 第 三 方 库 。 代码 块 如 下 所 示 : 











target :ktv do 

pod 'Mantle', '1.5" 

pod 'AFNetworking', '2.6.0' 
end 








上 述 配置 代表 项 目 需要 引进 版 本 号 为 1.5 的 Mantle 与 版 本 号 为 2.6.0 的 








AFNetworking 库 。 最 后 ， 在 命令 行 中 ， 进 入 项 目的 根 目 录 下 执行 pod 
install 命 令 ， 如 果 Podfile 配 置 文件 的 语法 没有 问题 ， 那 么 CocoaPods 束 会 
为 项 目 生成 两 个 文件 和 一 个 目录 。 其 中 ， 一 个 文件 的 名 称 是 项 目 名 

称 .xcworkspace， 男 一 个 文件 的 名 称 是 Podfile.lock， 而 生成 的 目录 则 是 
Pods， 其 中 放置 了 引用 第 三 方 库 的 源码 。 此 时 ， 双 击 后 级 名 为 
xcworkspace 的 文件 即 可 打开 此 项 目 ， 查 看 Xcode 目录 里 的 结构 ， 会 友 现 
项 目 中 己 经 有 了 刚才 新 引入 的 第 三 方 库 了 。 


增加 C++ 支持 


在 单独 编写 一 个 C 或 C++ 的 项 目 时 ， 如 果 该 项 目 需要 引用 到 第 三 方 
库 ， 那 么 编译 阶段 需要 配置 参数 “extra-cflags，-T 来 指定 引用 头 文件 的 
位 置 ， 链 接 阶 段 需要 配置 参数 "ld-flags，-L? 来 指定 静态 库 的 位 置 ， 并 且 
使 用 -] 来 指定 引用 的 是 哪 一 个 库 。 在 C++ 的 编译 中 ， 如 果 需 要 在 程序 的 
执行 过 程 中 带 入 一 些 宏 (define 的 常量 ) ， 那 么 就 应 该 在 “extra-cflags” 的 
后 面 增加 自己 需要 定义 的 宏 ， 例 如 -DAUTO_TEST， 这 就 相当 于 在 程序 
中 编写 了 如 下 一 行 代码 : 























define AUTO_TEST 





那么 在 Xcode 中 ， 应 该 如 何 指定 头 文件 、 第 三 方 库 ， 以 及 预定 义 宏 
呢 ?” 其 实 ，Xcode 里 面 已 经 存在 了 对 应 的 参数 设置 ， 只 需要 在 Build 
Settings 中 设置 这 些 参数 即 可 。 首 先 对 应 于 -I 来 指定 头 文件 的 目录 ， 
Xcode 使 用 Search ”Paths 来 设置 头 文 件 的 搜索 路 径 ， 通 党 会 用 到 Header 
Search Paths 选 项 来 指定 头 文件 的 搜索 路 径 。 其 中 预定 义 变量 $ 
(SRCROOT) 和 $ (PROJECT_DIR) 都 是 项 目的 根 目 录 ， 可 以 基于 这 
两 个 预定 义 变量 再 加 上 相对 路 径 来 指定 头 文件 所 在 的 具体 位 置 ， 预 定义 
宏 在 Other ”C ”Flags 选 项 中 ， 可 以 写 入 -DAUTO_TEST， 表 示 定 义 了 
AUTO_TEST 宏 ; 在 指定 第 三 方 库 时 ，-L 对 应 到 Xcode 中 就 是 other Link 
flags 选 项 ， 其 中 可 以 写 入 需要 链接 的 库 文件 ， 在 Xcode 项 目 中 直接 添加 
一 个 静态 库 文 件 ，Xcode 会 默认 在 Build phases 选 项 的 Link Binary with 
Library 里 加 入 该 静态 库 ， 但 是 如 果 Xcode 没 有 自动 加 入 该 静态 库 的 话 ， 
就 需要 开发 者 手动 加 一 下 ， 这 里 其 实 也 是 工 的 一 种 表示 方式 。 


接 下 来 ， 编 写 一 个 类 Mp3Encoder， 人 负责 将 PCM 数 据 编 码 为 MP3 文 
件 。 首 先 建 立 Mp3Encoder.cpp 和 Mp3Encoder.h 这 两 个 文件 ， 然 后 再 编写 
一 个 encode 方 法 ， 该 方法 将 调用 printf 输 出 一 行 日 志 信 息 ， 以 代表 调用 了 
































这 个 方法 。 


现在 就 为 前 面 搭建 起 来 的 OS 项 目 增 加 C++ 的 支持 ， 由 于 OC 语法 文 
持 泥 编 ， 所 以 开发 者 仪 需 要 把 引用 C++ 的 OC 类 的 后 级 名 改 为 .mm (OC 
类 的 正常 后 级 名 是 .m) ， 就 可 以 和 C++ 一 块 编 译 了 。 上 所 以 开发 者 仅 需 要 
把 ViewController 的 后 缀 名 改 为 .mm， 再 包含 进 Mp3Encoder.h 头 文件 ， 实 
例 化 该 类 ， 最 后 调用 该 类 的 encode 方 法 ， 代 人 码 如 下 : 





Mp3Encoder* encoder = new Mp3Encoder(); 
encoder->encode (); 
delete encoder; 





如 果 大 家 可 以 看 到 printf 输 出 的 日 志 信息 ， 则 代表 已 经 为 该 OS 项 目 
成 功 添加 了 C++ 的 支持 。 是 不 是 很 简单 呢 ? 其 实 这 也 是 苹果 公司 为 开发 
者 提供 的 便利 ， 下 面 还 会 讲解 Android 是 如 何 添 加 C++ 支持 的 ， 相 较 于 
iOS 平 台 而 言 ，Android 平 台 要 麻烦 得 多 。 








2.2 ”在 Android 上 如 何 搭建 一 个 基础 项 目 


首先 要 在 开发 机 器 上 安装 Eclipse〈 尽 量 选 择 已 经 安装 好 ADT 的 版 
本 ) 与 Android 的 SDK， 然 后 在 Eclipse 中 建立 一 个 Android 项 目 ， 命 名 为 


Mp3Encoder， 如 图 2-8 所 示 。 


New Android Application 


Creates a new Android Application 


Application Name: B Mp3Encoder 
Project Name: B Mp3Encoder 


Package Name: B com.phuket.tour.mp3encoder 


Minimum Required SDK: 下 API 18: Android 4.3 (Jelly Bean) 
Target SDK: 日 API 18: Android 4.3 (Jelly Bean) 
Compile With: @ | API 18: Android 4.3 (Jelly Bean) 


Theme: None 


图 2-8 





Next > Cancel 





在 图 2-8 所 示 的 界面 中 ， 我 们 需要 键入 项 目的 名 字 、 包 的 名 字 (应 





用 程序 的 唯一 标识 ) ， 由 于 在 决定 写 这 本 书 的 时 候 笔 者 正在 普 吉 岛 度 


假 ， 所 以 就 将 其 命名 为 com.phuket.tour.mp3encoder 了。 然后 点 击 Next 按 


钮 ， 进 入 图 2-9 所 示 的 界面 。 


New Android Application 


Configure Project 


v| Create custom launcher icon 


| Create activity 
| Mark this project as a library 


| Create Project in Workspace 


Location: 


Working sets 


Add project to working sets 


Working sets: 


(2?) < Back Next > Cancel 


图 2-9 


在 这 一 步 又 中 ， 可 以 让 IDE 建 立 一 个 默认 的 Activity， 选 中 图 2-9 中 


的 Create activity 复 选 框 ， 点 击 Next 按 钮 ， 进 入 图 2-10 所 示 的 界面 。 


Configure Launcher Icon 
Configure the attributes of the icon set 








Foreground: Image | Clipart | Text | 


Image File: | launcher_icon 





IV] Trim Surrounding Blank Space 


Additional Padding: 


Foreground Scaling: crop | Center 


Shape ‘None | Square | Circle | 








一 
Backgroung Color' | 








< Back Next > Cancel 





图 2-10 
这 一 步 不 用 做 任何 选择 ， 全 部 使 用 默认 配置 ， 点 击 Next， 进 入 图 2- 


11 所 示 的 界面 。 


Create Activity 
Select whether to create an activity and if so, what kind of activity. 





v| Create Activity 


Blank Activity 
Blank Activity with Fragment 
Empty Activity 


Fullscreen Activity 

Master/Detail Flow 
Navigation Drawer Activity 

Tabbed Activity 


Blank Activity 
Creates a new blank activity with an action bar. 


(9?) < Back Next > Cancel 
图 2-11 


在 图 2-11 中 ， 选 择 Blank ”Activity， 代 表 应 用 默认 是 一 个 空 的 页 面 
《后 面 会 加 上 自己 的 按钮 ) ， 点 击 Next， 进 入 图 2-12 所 示 的 界面 。 


Blank Activity 
Creates a new blank activity with an action bar. 


Activity Name 目 MainActivity 


Layout Name 目 activity_main 


< Back Cancel Finish 
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图 2-12 


在 图 2-12 中 ， 键 入 主 Activity 的 名 字 为 MainActivity， 然 后 点 击 
Finish， 即 可 成 功 建立 该 项 目 ， 其 目录 的 结构 如 图 2-13 所 示 。 


MA Mp3Encoder 
j> (src 
bp Ba gen [Generated Java Files] 
Pp BB Android 4.3.1 
Pp BN Android Private Libraries 
已 ,assets 
人 名 bin 
bp 由 lips 
了 RE Tes 
P ,drawable-hdpi 
EE drawable-ldpi 
P CG drawable-mdpi 
Pp (drawable-xhdpi 
p (Sdrawable-xxhdpi 
> Elayout 
F 全 :menu 
天 values 
b Cvalues-v11 
bP Cvalues-v14 
PF Evalues-w820dp 
加 AngroidManifest.xml 
部 ic_launcher-web.png 
国 proguard-project.txt 
悦 project.properties 


图 2-13 
增加 C++ 支 持 
在 Android 平 台 上 开发 音 必定 会 涉及 JNI (Java 
Native Interface 〉 这 一 概念 。 一 种 编程 框架 ， 人 允许 运行 于 VM 的 


Java 程 序 去 调用 本 地 代码 (C/C++ 以 及 汇编 语言 的 代码 )， 本 地 代码 通 
常会 与 硬件 或 操作 系统 相关 联 ， 因 而 其 会 在 一 定 程度 上 破坏 Java 语 言 言 所 
宣称 的 跨 平 台 特性 。 不 过 在 某 些 业务 场景 下 这 种 调用 又 是 必需 的 ， 比 如 
Android 系 统 〈framework 层 面 ) 就 采用 了 大 量 的 JNI 手 段 去 调用 Native 层 
的 实现 库 。 如 果 抛 开 音 视频 相关 的 场景 ， 仅 仅 考 虑 Android 的 开发 ， 那 

么 有 哪些 场景 会 用 到 JNI 呢 ?大 约 有 以 下 几 种 情况 。 


:应 用 程序 需要 一 些 平台 相关 特性 的 支持 ， 而 Java 层 没有 对 应 的 API 
支持 (比如 OpenSL ES 的 使 用 ) 。 


.调用 成 熟 的 或 者 已 经 存在 的 、 用 C/C++ 语言 编写 的 代码 库 。 比如 使 
J ES 的 视频 特效 处 理 库 ， 或 者 利用 FFmpeg、LAME 等 第 三 方 开 
产 








.应 用 程序 的 某 些 关键 操作 对 运行 速度 有 较 高 的 要 求 。 这 部 分 逻辑 
可 以 用 C 或 者 汇编 语言 来 编写 ， 再 通过 JNI 同 Java 层 提供 访问 接口 。 

在 本 书后 面 的 项 目 案例 中 ， 熟 练 使 用 JNI 是 最 基本 的 要 求 ， 所 以 在 
这 里 先 详细 地 讲解 一 下 。JNI 主 要 有 两 种 调用 形式 : 第 一 种 也 是 最 常见 
的 ， 即 Java 代 码 调用 Native 的 代码 ; 第 二 种 则 恰好 相反 ， 就 是 在 Native 层 
调用 Java 人 代码。 由 于 使 用 场景 最 多 的 是 第 一 种 方式 ， 所 以 本 节 只 介绍 这 
种 方式 ， 而 第 二 种 方式 的 调用 在 后 续 的 章节 中 也 会 用 到 ， 到 时 候 读者 目 
然 会 学 习 到 。 

要 完成 一 个 Java 层 调用 Native 代 码 的 项 目 ， 大 致 步骤 如 下 。 


1) 编写 一 个 Java 类 ， 并 且 在 某 个 方法 签名 的 修饰 符 中 加 上 native 修 
饰 符 。 

2) 使 用 javac 命 令 编译 第 1 步 中 的 Java 类 ， 使 之 成 为 一 个 class 文 件 ， 
如 果 使 用 的 是 Eclipse 的 IDE， 则 其 将 会 自动 执行 javac 的 编译 命令 ， 生 成 
的 class 文 件 将 存在 于 项 目 目录 下 的 bin/classes 目 录 下 。 

3) 使 用 javah 命 令 将 第 2 步 的 输出 作为 输入 ， 生 成 JNI 的 头 文件 。 


4) 将 JNI 头 文件 复制 到 项 目下 的 jni 目 录 ， 并 且 建 立 一 个 cpp 的 实现 
文件 实现 该 JNI 头 文件 中 的 函数 。 


5) 编写 Android.mk 文 件 ， 加 入 第 4 步 的 本 地 代码 ， 利 用 ndk-build 生 
成 动态 链接 库 。 


6) 在 Java 类 中 加 载 第 5 步 生 成 的 动态 链接 库 。 
7) 在 Java 类 中 调用 该 Native 方 法 。 
下 面 以 一 个 实例 来 完成 上 述 的 步 又， 具体 如 下 。 


1) 在 Eclipse 的 com.phuket.tour.studio 包 下 ， 建 立 一 个 Java 文 件 
Mp3Encoder.java。 


2) 在 上 述 Java 文 件 中 编写 一 个 本 地 方法 : 
































public native void encode(); 





人 
口 文件 : 





javah -jni com.phuket.tour.studio.Mp3Encoder 





4) 然后 把 该 头 文件 复制 到 jni 目 录 下 ， 编 写 一 个 Mp3Encoder.cpp 来 
实现 该 接口 文件 ， 这 里 仅仅 输出 一 行 日 志 。 


首先 利用 “ 宏 定 义 ” 定 义 一 个 输出 日 志 的 宏 








#define LOGI(...) __android log print(ANDROID_ LOG _ INFO, LOG_TAG, 
__VA ARGS_ ) 





然后 定义 LOG_TAG 为 Mp3Encoder， 并 且 实 现 该 encode 方 法 : 





JNIEXPORT void JNICALL 
Java_com _ phuket_tour_studio Mp3Encoder_encode(JNIEnv * env, 
jobject obj) { 
LOGI("encoder encode"); 


} 








5) 新 建立 一 个 Android.mk 文 件 ， 并 键入 以 下 内 容 : 





LOCAL_PATH := $(call my-dir) 

include $(CLEAR_VARS) 

LOCAL_SRC_FILES = ,/Mp3Encoder ,cpp 
LOCAL_LDLIBS := -L$(SYSROOT)/usr/lib -11og 
LOCAL_MODULE := libaudioencoder 

include $(BUILD_SHARED_LIBRARY) 








上 述 代 码 具 体 每 一 行 的 含义 ， 在 后 续 章 节 中 会 有 详细 的 解释 。 现 在 
最 重要 的 就 是 把 该 项 目 运行 起 来 。 


6) 在 当前 目录 下 执行 ndk-build 指 令 ， 编 译 出 该 动态 so 库 。 
7) 在 MainActivity 中 写 入 一 个 静态 代码 块 : 





static { 


System.1loadLibrary("audioencoder"); 








写 该 代码 块 的 目的 是 将 刚刚 编译 好 的 so 库 加 载 到 我 们 的 项 目 中 。 








8) 在 onCreate 中 调用 Mp3Encoder 类 的 encode 方 法 ， 最 后 运行 该 应 
用 ， 并 且 打 开 logcat 视 图 查看 结果 。 


如 果 可 以 在 logcat 中 看 到 JNI 层 输出 的 日 志 ， 则 代表 已 经 成 功 地 为 
Android 项 目 添 加 了 C++ 的 文 持 。 如 有 条 仅仅 是 目 己 编写 代码 ， 而 不 需要 调 
用 其 他 的 第 三 方 开源 库 ， 这 样 吏 完全 可 以 了 。 但 是 在 开发 音 视 频 项 目 
时 ， 肯 定 会 需要 依赖 很 多 第 三 方 的 库 ， 比 如 音 视 频 编 解码 的 开源 库 、 音 
视频 特效 处 理 的 开源 库 ， 等 等 ， 那 么 如 何 根据 目 己 的 需要 诬 加 各 种 依赖 
库 呢 ? 这 将 在 2.3.3 节 中 与 大 家 详细 讨论 ， 最 终 笔 者 会 使 用 LAME 库 编码 
一 个 MP3 的 音频 文件 作为 本 章 的 实例 。 














2.3 ”交叉 编 译 的 原理 与 实践 


本 节 将 学 习 交 叉 编 译 ， 在 音 视 频 的 开发 中 了 解 交 叉 编 译 是 必需 的 ， 
因为 无 论 在 哪 一 种 移动 平台 下 开发 ， 第 三 方 库 都 是 需要 进行 交叉 编译 
的 。 本 节 会 从 交叉 编译 的 原理 开始 介绍 ， 然 后 会 在 两 个 移动 平台 下 编译 
出 音 视 频 开 发 常用 的 几 个 库 ， 包 括 X264、FDK_AAC、LAME， 最 终 将 
以 LAME 库 为 例 进行 实践 ， 完 成 一 个 将 音频 的 PCM 裸 数据 编码 成 MP3 文 
件 的 实例 ， 以 此 来 证 明 交 叉 编译 的 重要 性 。 




















2.3.1 交叉 编译 的 原理 


先 来 看 一 下 ， 如 果 要 在 PC 上 运行 一 个 二 进 制程 序 〈 以 源码 的 方式 
进行 编译 ， 不 要 以 包 管 理工 具 的 方式 来 安装 ) ， 需 要 怎样 做 。 


首先 ， 要 有 这 个 二 进 制程 序 的 源 代码 (有 可 能 是 直接 下 载 的 ， 也 有 
可 能 是 自己 编写 的 代码 ) ， 然 后 在 PC 上 进行 编译 链接 生成 可 执行 文 
件 ， 最 后 在 Terminal 下 面 去 执行 该 可 执行 文件 。 


上 述 流程 中 包含 了 几 个 角色 ， 首 先是 要 有 源 代码 ， 然 后 是 要 知道 最 
终 运 行 该 二 进 制程 序 的 机 器 是 哪 一 个 (其 实 就 是 本 机 器 〉， 当 然 ， 其 中 
最 重要 的 就 是 编译 器 和 链接 器 了 ， 对 于 C 或 者 C++ 程序 来 讲 ， 束 是 使 用 
gcc 和 g++， 而 该 编译 器 是 需要 预先 安装 在 机 器 上 的 。 分 析 了 这 么 多 角 
色 ， 总 结 成 一 句 话 就 是 : 使 用 本 机 器 的 编译 器 ， 将 源 代码 编译 链接 成 为 
一 个 可 以 在 本 机 器 上 运行 的 程序 。 这 就 是 正常 的 编译 过 程 ， 也 称 为 
Native Compilation， 中 文 译作 本 机 编译 。 


了 解 了 本 机 编译 之 后 ， 再 来 看 一 下 何 为 交叉 编译 。 所 谓 交 叉 编 译 ， 
就 是 在 一 个 平台 《如 PC) 上 生成 另外 一 个 平台 (Android、iOS 或 者 其 他 
相 入 式 设 备 ) 的 可 执行 代码 。 相 较 于 正常 编译 ， 下 面 来 看 一 下 交叉 编译 
的 相应 角色 。 首 先 ， 最 终 程序 运行 的 设备 就 是 Android 或 者 iDOS 设 备 ， 源 
代码 就 是 从 第 三 方 开源 网 站 上 下 载 的 源 代 码 ， 编 译 机 器 就 是 我 们 的 
PC， 而 编译 器 也 必须 要 安装 到 该 PC 上 。 但 是 这 里 对 编译 器 是 有 特殊 需 
求 的 ， 最 终 程序 运行 的 系统 必须 要 提供 可 运行 在 PC 上 的 编译 器 ， 而 该 
编译 器 就 是 大 家 和 说 的 交叉 工具 编译 链 。 


了 解 了 交叉 编译 之 后 ， 大 家 应 该 能 够 理解 区 叉 纺 译 存 在 的 必要 性 
了 。 在 一 般 的 租 入 式 系 统 开 发 中 ， 运 行程 序 的 目标 平台 其 存储 空间 和 运 
算 能 力 都 是 有 限 的 ， 尺 管 现 在 的 OS 和 Android 设 备 拥有 越 来 越 强 劲 的 计 
算 能 力 ， 但 是 在 这 种 租 入 式 设 备 中 进行 本 地 编译 是 不 太 可 能 的 ， 一 则 是 
因为 计算 能 力 的 问题 ， 还 有 一 个 重要 的 原因 就 是 编译 工具 以 及 整个 编译 
过 程 异 党 系 珊 ， 所 以 在 这 种 情况 下 ， 直 接 在 ARM 平 台 下 进行 本 机 编译 
几乎 是 不 可 能 的 。 而 具有 更 加 强劲 的 计算 能 力 与 更 大 存储 空间 的 PC 才 
是 理想 的 选择 ， 所 以 大 部 分 的 谍 入 式 开 发 平台 都 提供 了 本 吴平 台 区 叉 编 
译 所 需要 的 交叉 工具 编译 链 ， 通 过 该 区 叉 工 具 编 译 链 ， 开 发 者 就 能 在 
PC 上 编译 出 可 以 运行 在 ARM 平 台 下 的 程序 了 。 







































































无 论 是 自行 安装 PC 上 的 编译 器 ， 还 是 下 载 其 他 平台 (Android 或 者 
iOS) 的 交叉 工具 编译 链 ， 它 们 都 会 提供 以 下 几 个 工具 : CC、AS、 
AR、LD、NM、GDB。 那 么 ， 这 几 个 工具 到 底 是 做 什么 用 的 呢 ? 下 面 
就 来 逐一 解释 一 下 。 

CC: 编译 器 ， 对 C 源 文件 进行 编译 处 理 ， 生 成 汇编 文件 。 


.AS: 将 汇编 文件 生成 目标 文件 (汇编 文件 使 用 的 是 指令 助 记 符 ， 
AS 将 它 翻译 成 机 器 码 ) 。 


AR: 打包 强 ， 用 于 库 操 作 ， 可 以 通过 该 工具 从 一 个 库 中 删除 或 者 
增加 目标 代码 模块 。 


-LD: 链接 器 ， 为 前 面 生成 的 目标 代码 分 配 地 址 空间 ， 将 多 个 目标 
文件 链接 成 一 个 库 或 者 是 可 执行 文件 。 


-GDB: 调试 工具 ， 可 以 对 运行 过 程 中 的 程序 进行 代码 调试 工作 。 


“STRIP: 以 最 终生 成 的 可 执行 文件 或 者 库 文件 作为 输入 ， 然 后 消除 
掉 其 中 的 源码 。 


:NM: 查看 静态 库 文 件 中 的 符号 表 。 

“Objdump: 查看 静态 库 或 者 动态 库 的 方法 签名 。 

了 解 了 这 些 之 后 ， 当 读者 再 进行 交叉 编译 或 者 使 用 交叉 编译 工具 链 
提供 的 工具 时 ， 就 不 会 感到 陌生 了 ， 接 下 来 将 会 在 iDOS 平 台 和 Android 平 
台 分 别 演 示 如 何 交 叉 编译 出 几 个 常用 的 音 视频 开源 库 。 
编译 器 对 比 

正常 编译 一 个 程序 的 过 程 如 下 : 






































编译 : gcc-c main.cpp./libmad/mad_decoder.cpp-I./libmad/include 
打包 : ar cr../prebuilt/libmedia.a mad_decoder.o 


链接 : g++-0 main main.o-L../prebuilt-l mdedia 








在 这 个 过 程 中 ，gcc、ar、g++ 是 我 们 用 到 的 三 个 编译 工具 ， 在 这 里 
没有 用 到 的 ranlib、gdb、nm、strip 等 都 会 包含 在 PC 的 编译 器 中 ， 同 样 其 
他 和 平台 提供 的 交叉 工具 编译 链 中 也 会 包含 这 些 命 令 行 工 具 ， 比 如 
Android 提 供 的 NDK， 其 交叉 工具 编译 链 中 的 prebuilt/darwin-x86_64/bin 
中 ， 就 包含 了 对 应 的 gcc、ar、g++、gdb、strip、nm、ranlib 等 工具 。 





2.3.2 ”iOS 平台 交叉 编译 的 实践 


前 面 提 到 的 目标 平台 虽然 都 基于 ARM 平 台 ， 但 是 随 着 时 间 的 推 
移 ， 平 台 也 在 不 断 地 演进 ， 就 像 armv5 到 armv6、armv7 以 及 到 现在 的 
arm64， 对 于 iOS 平 台 来 讲 ， 每 一 代 手 机 对 应 的 指令 集 到 底 应 该 是 什么 
呢 ? 下 面 就 依据 iDOS 设 备 发 布 的 时 间 线 来 逐个 看 一 下 。 





:armv6: iPhone、iPhone 2、iPhone 3G 
‘armv7: iPhone 4、iPhone 4S 
‘armv7s: iPhone 5、iPhone 5S 


“arm64: iPhone 5S、 iPhone 6 (P) 、 iPhone 6S (P) 、iPhone 
7 (P) 


机 器 对 指令 集 的 支持 是 加 下 兼容 的 ， 因 此 armv7 的 指令 集 是 可 以 运 
行 在 iPhone 5S 中 的 ， 只 是 效率 没 那 么 高 而 已 。 借 此 机 会 ， 先 来 讨论 一 下 
iOS 项 目 文件 中 的 一 项 配置 ， 即 Build Settings 里 面 的 Architectures 选 项 。 
Architectures 指 的 是 该 App 文 持 的 指令 集 ， 一 般 情 况 下 ， 在 Xcode 中 新 建 
一 个 项 目 ， 其 默认 的 Architectures 选 项 值 是 Standard 
architectures (armv7、arm64) ， 表 示 该 App 仪 支持 armv7 和 arm64 的 指令 
集 ; Valid ”architectures 选 项 指 即将 编译 的 指令 集 ， 一 般 设 置 为 armv7、 
armv7s、arm64， 表 示 一 般 会 编译 这 三 个 指令 集 ; Build Active 
Architecture “Only 选项 表示 是 否 只 编译 当前 适用 的 指令 集 ， 一 般 情 况 下 
在 Debug 的 时 候 设 置 为 YES， 以 便 可 以 更 加 快速 、 高 效 地 调试 程序 ， 而 
在 Release 的 情况 下 设置 为 NO， 以 便 App 在 各 个 机 器 上 都 能 够 以 最 高 效 
率 运 行 ， 因 为 Valid ”architectures 选 择 的 对 应 指令 集 是 armv7、armv7s 和 
arm64， 在 Release 下 会 为 各 个 指令 集 编译 对 应 的 代码 ， 因 此 最 后 的 ipa 体 
积 基本 上 翻 了 3 倍 。 


基于 上 面 的 描述 ， 以 及 设备 与 指令 集 平 台 的 对 比 ， 大 多 数 情 况 下 ， 
我 们 在 实际 的 交叉 编译 过 程 中 只 编译 armv7 与 arm64 这 两 个 指令 集 平台 下 
的 库 ， 因 为 armv7s 设 备 的 数量 比较 少 ， 有 armv7 来 保底 完全 是 可 以 运行 
的 ， 并 且 armv7 到 armv7s 指 令 集 的 变动 又 比较 少 ， 而 arm64 的 变动 则 比较 
大 ， 设 备 数量 也 比较 多 ， 上 所 以 需要 单独 编译 出 来 ， 以 保证 这 一 批 设备 可 
以 享受 到 最 优质 的 运行 状况 。 

















1.LAME 的 交叉 编译 


首先 来 看 一 下 LAME 库 是 如 何 被 交叉 编译 的 ， 在 交叉 编译 之 前 先 介 
绍 一 下 LAME 库 。 


LAME 人 简介 


LAME 是 目前 非常 优秀 的 一 种 MP3 编 码 引擎 ， 在 业界 ， 转 码 成 MP3 
格式 的 音频 文件 时 ， 最 常用 的 编码 器 就 是 LAME 库 。 当 达到 320Kbits 以 
上 时 ，LAME 编 码 出 来 的 音频 质量 几乎 可 以 和 CD 的 音质 相 媲美 ， 并 且 
还 能 保证 整个 音频 文件 的 体积 非常 小 ， 因 此 若 要 在 移动 端 平台 上 编码 
MP3 文 件 ， 使 用 LAME 便 成 为 唯一 的 选择 。 


前 面 在 介绍 交 义 编译 原理 的 时 候 曾 提 到 过 ， 不 论 在 何 种 平台 上 进行 
交叉 编译 ， 都 要 知道 交叉 编译 工具 链 在 什么 地 方 。 同 样 ， 在 iOS 上 进行 
交叉 编译 时 ， 也 要 搞 清 楚 这 个 最 基本 的 问题 。 其 实在 安装 iOS 的 开发 环 
境 Xcode 时 ， 配 套 的 编译 器 束 已 经 安装 好 了 。 开 发 OS 平台 下 的 App 束 是 
这 人 么 方便 ， 不 需要 再 单独 下 载 交 叉 工 具 编译 链 ， 接 下 来 直接 去 
SourceForge 下 载 最 新 的 LAME 版 本 ， 访 问 链 接 如 下 : 

















https://sourceforge.net/projects/lame/files/lame/3.99/ 





这 里 选择 3.99.5 版 本 ， 将 源码 下 载 下 来 之 后 ， 编 写 一 个 
build_armv7.sh 脚 本 ， 用 于 编译 armv7 指 令 集 下 的 版 本 ， 以 支持 iPhone 5S 
及 以 下 的 设备 ，Shell 脚 本 里 面 的 内 容 如 下 : 





./configure \ 

--disable-shared \ 

--disable-frontend \ 

--host=arm-apple-darwin \ 

--prefix="./thin/armv7" \ 

CC="xcrun -sdk iphoneos clang -arch armv7" \ 

CFLAGS="-arch armv7 -fembed-bitcode -miphoneos-version-min=7.0" \ 
LDFLAGS="-arch armv7 -fembed-bitcode -miphoneos-version-min=7.0" 
make clean 

make -j8 

make install 





下 面 分 别 解释 一 下 这 儿 个 命令 以 及 选项 的 意义 。configure 是 符合 
GNU 标 准 的 软件 包 发 布 所 必 备 的 命令 ， 所 以 这 里 是 通过 configure 的 方式 


来 生成 Makefile 文 件 ， 然 后 使 用 make 和 make _ install 编译 和 安装 整个 库 。 
可 使 用 configure-h 命 令 来 查看 一 下 configure 的 帮助 文档 ， 了 人 解 LAME 的 
可 选 配置 项 ， 有 具体 如 下 。 


.--prefix: 指定 将 编译 好 的 库 放 到 哪个 目录 下 ， 这 是 GNU 大 部 分 库 
的 标准 配置 。 


.--host: 指定 最 终 库 要 运行 的 平台 。 
CC: 指定 交叉 工具 编译 链 的 路 径 ， 其 实 这 里 就 是 指定 gcc 的 路 径 。 


:CELAGS: 指定 编译 时 所 带 的 参数 。Shell 脚 本 中 指定 -march 是 
armv7 平 台 ， 代 表 编 译 的 库 运 行 的 目标 平台 是 armv7 平 台 ; 另外 Shell 脚 本 
中 也 指定 了 打开 bitcode 选 项 ， 这 使 得 使 用 编译 出 来 的 这 个 库 的 工程 ， 可 
以 将 enable-bitcode 选 项 设置 为 YES， 如 果 没 有 打开 该 选项 ， 那 么 其 在 
Xcode 中 只 能 设置 为 NO， 而 这 对 于 最 终 App 的 运行 性 能 会 有 一 定 的 影 
啊 。Shell 脚 本 中 同时 也 指定 了 编译 出 来 的 这 个 库 所 支持 的 最 低 iOS 版 本 
是 7.0， 如 果 不 配置 该 参数 的 话 ， 则 默认 是 iOS ”9.0 版 本 ， 而 所 使 用 的 编 
译 出 来 的 这 个 库 的 工程 ， 若 所 支持 的 最 低 iOS 版 本 不 是 9.0 的 话 ，Xcode 


就 会 给 出 警告。 


:LDFLAGS: 指定 链接 过 程 中 的 参数 ， 同 样 也 要 带 上 bitcode 的 选项 
以 及 开发 者 期 望 App 支 持 的 最 低 i0S 版 本 的 选项 参数 。 


.--disable-shared: 通常 是 GNU 标 准 中 关闭 动态 链接 库 的 选项 ， 一 般 
是 在 编 详 出 命令 行 工具 的 时 候 ， 期 望 命令 行 工 具 可 以 单独 使 用 而 不 需要 
动态 链接 库 的 配置 。 


.--disable-frontend: 不 编译 出 LAME 的 可 执行 文件 。 


























bitcode 


bitcode 模 式 是 表明 当 开 发 者 提交 应 用 (App) 到 App ”Store 上 的 时 
候 ，Xcode 会 将 程序 编译 为 一 个 中 间 表 现形 式 〈bitcode) 。App Store 会 
将 该 bitcode 中 间 表 现形 式 的 代码 进行 编译 优化 ， 链 接 为 64 位 或 者 32 位 的 
程序 。 如 果 程 序 中 用 到 了 第 三 方 静 态 库 ， 则 必须 在 编译 第 三 方 静态 库 的 
时 候 也 开启 bitcode， 否 则 在 Xcode 的 Build Setting 中 必须 要 关闭 bitcode， 
这 对 于 App 来 讲 可 能 会 造成 性 能 的 降低 。 


同样 再 看 一 下 arm64 指 令 集 下 面 的 编译 脚本 ， 建 立 build_arm64.sh 文 
件 ， 然 后 输入 以 下 内 容 : 





./configure \ 

--disable-shared \ 

--disable-frontend \ 

--host=arm-apple-darwin \ 

--prefix="./thin/arm64" \ 

CC="xcrun -sdk iphoneos clang -arch arm64" \ 

CFLAGS="-arch arm64 -fembed-bitcode -miphoneos-version-min=7.0" \ 
LDFLAGS="-arch arm64 -fembed-bitcode -miphoneos-version-min=7.0" 
make clean 

make -j8 

make install 





上 述 选 项 配置 大 部 分 都 与 armv7 的 脚本 相同 ， 不 同 之 处 在 于 这 里 的 
CFLAGS 指 定编 译 的 目标 平台 是 arm64 的 指令 集 平台 。 如 果 想 在 模拟 器 
上 运行 ， 那 么 就 需要 编译 出 1386 架 构 下 的 静态 库 ， 而 编译 i386 平 台 的 
Shell 脚 本 也 与 此 类 似 ， 仅 仅 是 改变 平台 架构 。 为 了 节省 篇 幅 ， 后 续 讨 论 
FDK AAC 及 X264 的 编译 脚本 时 ， 将 只 提供 armv7 的 编译 方式 。 


竺 两 个 脚本 执行 完毕 之 后 ， 就 可 以 去 thin-lame 目 录 下 寻找 对 应 的 
armv7 与 atm64 目 录 ， 并 且 在 这 两 个 目录 下 会 看 到 bin、1lib、include、 
share 这 四 个 目录 。 由 于 在 配置 的 时 候 裁 剪 挤 了 可 执行 文件 ， 所 以 bin 目 
录 下 不 会 有 内 容 ; 在 lib 目 录 下 则 是 链接 过 程 中 需要 链接 的 libmp3lame.a 
静态 库 文 件 ;， 在 include 目 录 下 则 是 编译 过 程 所 需要 引用 的 头 文件 。 


至 此 已 经 编译 出 了 两 个 指令 集 平台 下 的 静态 库 文 件 与 include 文 件 目 
录 ， 其 实 这 两 个 mclude 文 件 的 目录 是 一 样 的 ， 随 便 使 用 哪 一 份 都 可 以 ， 
但 是 对 于 静态 库 文 件 ， 应 该 如 何 用 呢 ? 这 里 就 会 涉及 如 何 合并 静态 库 的 
知识 ， 合 并 静态 库 应 该 使 用 lipo 命 令 ， 在 终端 下 切换 到 thin-lame 目 录 下 
键入 : 























Jipo -create ./arm64/1lib/libmp3lame.a ./armv7/lib/libmp3lame.a -output 
libmp3lame.a 





这 行 命令 会 把 两 个 平台 架构 下 的 静态 库 文件 合并 到 一 个 
libmp3lame.a 的 静态 库 文 件 中 ， 现 在 来 验证 一 下 最 终 的 libmp3lame.a 是 否 
含 armv7 与 arm64 这 两 个 平台 架构 的 静态 库 ， 在 命令 行 键入 : 








file libmp3lame.a 





如 果 看 到 如 下 信息 ， 则 说 明 编 译 成 功 了 : 





libmp3lame.a: Mach - 
0 _ universal binary with 2 architectures: [arm v7: current ar 
archive] [arm64: current ar archive] 
libmp3lame.a (for architecture armv7) : current ar archive 
libmp3lame.a (for architecture arm64) : current ar archive 








如 果 在 开发 过 程 中 编译 的 第 三 方 库 比较 多 ， 而 同时 编译 的 指令 集 平 
台 也 比较 多 ， 则 每 次 都 需要 新 建 几 个 脚本 文件 ， 然 后 编译 出 各 个 平台 的 
静态 库 ， 最 终 再 用 lipo 命 令 进 行 合 并 ， 将 会 非常 麻烦 。 而 软件 工程 师 就 
是 要 把 重复 性 的 东西 做 成 工具 ， 让 工作 变 得 更 加 简单 ， 所 以 后 续 在 代码 
仓库 中 会 有 完整 的 编译 脚本 ， 可 以 编译 出 所 有 架构 平台 下 的 静态 库 ， 并 
且 也 已 经 用 lipo 命 令 把 所 有 指令 集 平台 下 的 静态 库 合 并 到 了 一 个 静态 库 
文件 中 (包括 即将 介绍 的 FDK_AAC 的 库 及 X264 库 的 交叉 编译 ) 。 


2.FDK_AAC 的 交叉 编译 
在 交叉 编译 之 前 先 介 绍 一 下 FDK_AAC 库 。 
FDK_AAC 简 介 


FDK_AAC 是 用 来 编码 和 人 解码 AAC 格 式 首 频 文件 的 开源 库 ，Android 
系统 编码 和 解码 AAC 所 用 的 束 是 这 个 库 。 开 发 者 Fraunhofer IIS 是 AAC 音 
频 规 范 的 核心 制定 者 〈MP3 时 代 Fraunhofer IS 也 是 MP3 规 范 的 制定 
者 ) 。 前 面 章节 中 已 经 介绍 过 AAC 有 很 多 种 Profile， 而 EDK_AAC 几 乎 
支持 大 部 分 的 Profile， 并 且 支 持 CBR 和 VBR 这 两 种 模式 ， 根 据 笔者 个 人 
的 听 感 和 频谱 分 析 ， 在 同等 码 率 下 FDK_AAC 比 NeroAAC 以 及 faac 和 
voaac 的 音质 都 要 好 一 些 。 


下 面 先 到 SourceForge 上 下 载 稳定 版 本 的 FDK_AAC: 





https://sourceforge.net/p/opencore-amr/fdk-aac/ci/vO.1.4/tree/ 





然后 在 根 目录 下 建立 build_armv7.sh 脚 本 ， 在 里 面 写 入 以 下 内 容 : 





./configure \ 

--enable-static \ 

--disable-shared \ 

--host=arm-apple-darwin \ 
--prefix="$FDK_ROOT_DIR/thin/armv7" 

CC="xcrun -sdk iphoneos clang" \ 
AS="gas-preprocessor.pl $CC" 

CFLAGS="-arch armv7 -mios-simulator-version-min=7.0" \ 
LDFLAGS="-arch armv7 -mios-simulator-version-min=7.0" 
make clean 

make -j8 

make install 





FDK_AAC 的 配置 选项 中 要 求 比 LAME 多 配置 一 项 AS 参数 ， 并 且 需 
要 安装 gas-preprocessor， 首 先进 入 下 方 链接 : 





https://github.com/applexiaohao/gas-preprocessor 





下 载 gas-preprocessor.pl， 然 后 复制 到 /usr/local/bin/ 目 录 下 ， 修 
改 /usr/local/bin/gas-preprocessor.pl 的 文件 权限 为 可 执行 权限 : 











chmod 777 /usr/local/bin/gas-preprocessor.pl 





这 样 gas-preprocessor.p] 就 安装 成 功 了 ， 再 次 执行 上 面 的 Shell 脚 本 ， 
成 功 之 后 束 可 以 在 thin/armv7 目 录 〈 当 然 需要 提前 建立 好 该 目录 ) 下 看 
到 include 和 lib 这 两 个 目录 ， 在 使 用 该 库 时 ，include 目 录 下 包含 了 编译 阶 
段 需 要 用 到 的 头 文 件 ， 而 lb 目录 下 包含 了 链接 阶段 需要 用 到 的 静态 库 文 
件 。 类 似 于 上 面 的 脚本 ， 也 可 以 编译 arm64 以 及 i386 平 台 下 的 静态 库 ， 
最 后 再 用 lipo 工 具 合 并 静态 库 文件 ， 其 实 也 可 以 编写 一 个 Shell 脚 本 完成 
上 述 所 有 和 事情， 具体 可 以 查看 代码 仓库 中 的 完整 编译 脚本 。 


3.X264 的 交叉 编译 


本 节 将 介绍 X264 开 源 库 的 交叉 编译 ， 和 之 前 的 章节 一 样 ， 在 做 交 
又 编译 之 前 先 同 大 家 介绍 一 下 X264 库 。 


X264 简 介 























X264 是 一 个 开源 的 H.264/MPEG-4 AVC 视 频 编 码 函 数 库 ， 是 最 好 的 
有 损 视频 编码 器 之 一 。 一 般 的 输入 是 视频 帧 的 YUV 表 示 ， 输 出 是 编码 之 
后 的 H264 的 数据 包 ， 并 且 支 持 CBR、VBR 模 式 ， 可 以 在 编码 的 过 程 中 











和 直接 改变 码 京 的 设置 ， 这 在 直播 的 场景 中 是 非常 实用 的 (下 播 场景 下 利 
用 该 特点 可 以 做 码 率 目 适应 ) 。 


可 以 到 下 面 这 个 网 站 上 获取 X264 的 源码 : 





http://www.videolan.org/developers/x264.html 








当然 也 可 以 直接 执行 : 





git clone git://git.videolan.org/x264.git 





同样 ， 在 根 目 录 下 建立 build_armv7.sh 肢 本， 然后 在 里 面 写 入 如 下 


Ja 


内 容 





#!/bin/sh 

export AS="gas-preprocessor.pl -arch arm -- xcrun -sdk iphoneos clang" 
export CC="xcrun -sdk iphoneos clang" 

./configure \ 

--enable-static \ 

--enable-pic \ 

--disable-shared \ 

--host=arm-apple-darwin \ 

--extra-cflags="-arch armv7 -mios-version-min=7.0" \ 
--extra-asflags="-arch armv7 -mios-version-min=7.0" \ 
--extra-ldflags="-arch armv7 -mios-version-min=7.0" \ 
--prefix="./thin/armv7" 

make clean 

make -j8 

make install 








在 执行 上 述 Shell 脚 本 之 前 ， 要 求 在 当前 目录 下 预先 建立 好 
thin/armv7 目 录 ， 然 后 执行 脚本 ， 这 样 就 可 以 看 到 在 armv7 目 录 下 产生 的 
对 应 的 include 及 lib 目 录 了 ， 当 然 也 有 bin 目 录 ， 各 个 目录 里 面 存放 的 内 
容 ， 前 面 已 经 介绍 过 很 多 遍 了 ， 在 此 不 再 玖 述 。 对 于 arm64 以 及 i386 架 
构 平台 的 编译 ， 在 代码 仓库 中 会 有 一 个 Shell 脚 本 ， 它 可 以 编译 出 所 有 如 
构 平 台 下 的 静态 库 ， 并 且 已 经 用 lipo 工 具 合并 成 了 一 个 静态 库 。 


2.3.3” Android 平台 交叉 编译 的 实践 
1. 深 入 了 解 Android NDK 

Android 原 生 开发 包 CNDK) 可 用 于 Android 平 台 上 的 C++ 开 发 ， 
NDK 不 仅仅 是 一 个 单一 功能 的 工具 ， 还 是 一 个 包含 了 API、 交 叉 编译 
器 、 链 接 程序 、 调 试 器 、 构 建 工 具 等 的 综合 工具 集 。 

下 面 大 致 列举 了 一 下 经 常会 用 到 的 组 件 。 

-ARM、x86 的 交叉 编译 器 

-构建 系统 

Java 原生 接口 头 文件 

C 库 

.Math 库 

.最 小 的 C++ 库 

:ZLib 压 缩 库 

:POSIX 线 程 

Android 日 志 库 

Android 原 生 应 用 API 

.OpenGL ES (包括 EGL) 库 

.OpenSL ES 库 

下 面 来 看 一 下 Android 所 提供 的 NDK 根 目录 下 的 结构 。 


:ndk-build: 该 Shell 脚 本 是 Android NDK 构 建 系统 的 起 始点 ， 一 般 在 
项 目 中 仅仅 执行 这 一 个 命令 就 可 以 编译 出 对 应 的 动态 链接 库 了 ， 后 面 会 








有 详细 的 介绍 。 


ndk-gdb: 该 Shell 脚 本 允许 用 GUN 调试 器 调试 Native 代 码 ， 并 且 可 
以 配置 到 Eclipse 的 IDE 中 ， 可 以 做 到 像 调试 Java 代 码 一 样 调试 Native 的 代 
码 。 


:ndk-stack: 该 Shell 脚 本 可 以 帮助 分 析 Native 代 码 骨 江 时 的 堆栈 信 
息 ， 后 续 会 针对 Native 代 码 的 骨 尝 进行 详细 的 分 析 。 


build: 该 目录 包含 NDK 构 建 系统 的 所 有 模块 。 


:platforms: 该 目录 包含 文 持 不 同 Android 目 标 版 本 的 头 文 件 和 库 文 
NDK 构 建 系统 会 根据 具体 的 配置 来 引用 指定 平台 下 的 头 文件 和 库 文 


:toolchains: 该 目录 包含 日 前 NDK 所 支持 的 不 同 平台 下 的 交叉 编译 
嚣 一 ARM、x86、MIPS， 其 中 比较 常用 的 是 ARM 和 x86。 构 建 系 统 会 
根据 有 具体 的 配置 选择 不 同 的 交叉 编译 器 。 


在 了 解 了 NDK 的 目录 结构 之 后 ， 接 下 来 详细 了 解 一 下 NDK 的 编译 
脚本 语法 一 一 Android.mk 和 Application.mk。 


Android.mk 是 在 Android 平 台 上 构建 一 个 C 或 者 C++ 语言 编写 的 程序 
系统 的 Makefile 文 件 ， 不 同 的 是 ，Android 提 供 了 一 系列 的 内 置 变量 来 提 
供 更 加 方便 的 构建 语法 规则 。Application.mk 文 件 实 际 上 是 对 应 用 程序 
本 喘 进 行 描述 的 文件 ， 它 描述 了 应 用 程序 要 针对 哪些 CPU 架构 打包 动态 
so 包 、 要 构建 的 是 release 包 还 是 debug 包 以 及 一 些 编译 和 链接 参数 等 。 


(1) Android.mk 
Android.mk 分 为 以 下 几 部 分 。 


:LOCAL PATH: =$ (call my-dir) ， 返 回 当前 文件 在 系统 中 的 路 
径 ，Android.mk 文 件 开始 时 必须 定义 该 变量 。 


:include$ (CLEAR_VARS) ， 表 明 清除 上 一 次 构建 过 程 的 所 有 全 
局 变量 ， 因 为 在 一 个 Makefile 编 译 脚 本 中 ， 会 使 用 大 量 的 全 局 变量 ， 使 
用 这 行 脚 本 表明 需要 清除 掉 所 有 的 全 局 变量 。 











-LOCAL_SRC_FILES， 要 编译 的 C 或 者 Cpp 的 文件 ， 注 意 这 里 不 需 
要 列举 头 文件 ， 构 建 系 统 会 自动 帮助 开发 者 依赖 这 些 文件 。 


.LOCAL STATIC LIBRARIES， 所 依赖 的 静态 库 文件 。 


‘LOCAL _ LDLIBS: =-L$ (SYSROOT) /usr/lib-llog-lOpenSLES- 
1GLESv2-IEGL-lz， 指 定编 译 过 程 所 依赖 的 NDK 提 供 的 动态 与 静态 库 ， 
SYSROOT 变 量 代表 的 是 NDK_ROOT 下 面 的 目录 
$NDK_ROOT/platforms/android-18/arch-arm， 而 在 这 个 目录 的 usr/lib/ 目 
录 下 有 很 多 对 应 的 so 的 动态 库 以 及 .a 的 静态 库 。 


-LOCAL_CFLAGS， 编 译 C 或 者 Cpp 的 编译 标志 ， 在 实际 编译 的 时 
候 会 发 送 给 编译 器 。 比 如 第 用 的 实例 是 加 上 -DAUTO_TEST， 然 后 在 代 
码 中 就 可 以 利用 条 件 判 断 ##fdef AUTO_TEST 来 做 一 些 与 自动 化 测试 相 
关 的 事情 。 


.LOCAL _ LDFLAGS， 链 接 标志 的 可 选 列 表 ， 当 对 目标 文件 进行 链 
接 以 生成 输出 文件 的 时 候 ， 将 这 些 标志 带 给 链接 器 。 该 指令 与 
LOCAL LDLIBS 有 些 类 似 ， 一 般 情 况 下 ， 该 选项 会 用 于 指定 第 三 方 编 
译 的 静态 库 ，LOCAL LDLIBS 经 常用 于 指定 系统 的 库 〈 比 如 log、 
OpenGL ES、EGL 等 ) 。 


.LOCAL _ MODULE， 该 模块 的 编译 的 目标 名 ， 用 于 区 分 各 个 模 
块 ， 名 字 必 须 是 唯一 并 且 不 包含 空格 的 ， 如 果 编 译 目 标 是 so 库 ， 那 么 该 
so 库 的 名 字 就 是 lib 项 目 名 .so。 





























.include$ (BUILD_ SHARED_LIBRARY) ， 其 实 类 似 的 include 还 有 
很 多 ， 都 是 构建 系统 提供 的 内 置 变 量 ， 该 变量 的 意义 是 构建 动态 库 ， 其 
他 的 内 置 变量 还 包括 如 下 几 种 。 


.---BUILD_STATIC LIBRARY: 构建 静态 库 。 











.---PREBUILT _ STATIC_ LIBRARY: 对 已 有 的 静态 库 进 行 包装 ， 使 
其 成 为 一 个 模块 。 


.---PREBUILT SHARED LIBRARY: 对 已 有 的 动态 库 进 行 包 装 ， 
使 其 成 为 一 个 模块 。 





.---BUILD_EXECUTABLE: 构建 可 执行 文件 。 


构建 系统 提供 的 这 些 内 置 变量 在 哪里 能 够 看 到 呢 ? 它们 都 在 
$NDK_ROOT/build/core/ 目 录 下 ， 这 里 面 会 有 所 有 预先 定义 好 的 
Makefile， 开 发 者 include 一 个 变量 ， 实 际 上 融 是 把 对 应 的 Makefile 包 含 到 
Android.mk 中 ， 包 括 前面 提 到 的 CLEAR_VARS， 其 也 是 该 目录 下 面 的 
一 个 Makefile。 








.include$ (call all-makefiles-under, $ (LOCAL PATH) ) ， 也 是 
构建 系统 提供 的 变量 ， 该 命令 会 返回 该 目录 下 所 有 子 目录 的 Android.mk 
列表 。 


上 面 已 经 清楚 地 讲解 了 Android.mk 里 的 基本 语法 规则 ， 那 么 ， 在 输 
入 命令 ndk-build 之 后 ， 系 统 到 底 会 使 用 哪些 编译 器 以 及 打包 器 和 链接 器 
来 编译 我 们 的 程序 呢 ? 


会 使 用 $NDK_ROOT/toolchains/arm-linux-androideabi- 
4.8/prebuilt/darwin-x86_64/bin/ 目 录 〈 以 Mac 平 台 为 例 ) 下 面 的 gcc、 
g++、ar、ld 等 工具 。 同 样 在 该 目录 下 的 strip 工 具 将 会 用 于 清除 so 包 里 面 
的 源码 ，nm 工 具 可 以 供 开发 者 查看 静态 库 下 的 符号 表 。 


那么 进行 gcc 编 译 的 时 候 ， 头 文件 将 放 在 哪里 呢 ? 


$NDK_ROOT/platforms/android-18/arch-arm/usr/include/ 目 录 下 会 存 
放 编 译 过 程 所 依赖 的 头 文 件 。 


那么 在 链接 过 程 中 ， 经 常 使 用 的 log 或 者 OpenSL ES 以 及 OpenGL ES 
等 库 勾 将 放 在 哪里 呢 ? 


答案 其 实 已 在 前 文中 提 到 过 ，$NDK_ROOTplatforms/android- 
18/arch-arm/usrlib/ 目 录 下 会 存放 链接 过 程 中 所 依赖 的 库 文 件 。 











(2) Application.mk 
Application.mk 分 为 以 下 几 个 部 分 。 
.APP_ABI: =XXX， 这 里 的 XXX 是 指 不 同 的 平台 ， 可 以 选 填 的 有 


x86、mips、armeabi、armeabi-v7a、all 等 ， 值 得 一 提 的 是 ， 知 选择 al 则 
会 构建 出 所 有 平台 的 So， 如 果 不 填 写 该 项 ， 那 么 将 默认 构建 为 armeabi 乎 











台 下 的 库 。 由 于 工作 的 原因 ， 笔 者 和 Intel 的 员工 打 过 交道 ， 构 建 
armeabi-v7a 平 台 的 so 之 所 以 可 以 运行 在 Intel  x86 架 构 的 CPU 平台 下 ， 是 
因为 Pntel 针 对 armeabi 做 了 兼容 ， 但 是 如 果 想 要 应 用 以 最 小 的 能 耗 、 最 高 
的 效率 运行 在 Intel ”x86 平 台 上 ， 则 还 是 要 指定 构建 的 so 为 x86 平 台 。 
此 ， 如 果 想 要 提高 App 的 运行 性 能 ， 则 还 需要 编译 出 x86 平 台 。 类 似 于 
前 面 介 绍 的 OS 平台 ， 如 果 不 考虑 模拟 器 的 话 ， 则 仪 需要 构建 armv7 与 
arm64 平 台 架 构 ， 那 么 对 于 Android 平 台 呢 ?对 于 armv7-a， 肯 定 是 要 编 
译 的 ;至 于 arm64-v8a 这 个 平台 ， 其 实 已 经 占 到 了 50% 以 上 ， 最 好 也 将 其 
单独 编译 出 来 ， 同时 armv5 这 个 平台 的 设备 还 是 存在 的 ， 当 然 不 同 App 
在 不 同 架构 下 的 比例 也 不 尽 相 同 ， 读 者 可 以 根据 实际 场景 来 诀 定 编译 的 
平台 数目 。 这 里 需要 注意 的 是 ， 编 译 arm64-v8a 的 时 候 使 用 的 交叉 工具 
编译 链 与 之 前 的 armv7 所 在 的 目录 有 比较 大 的 差异 ， 其 目录 存在 于 : 


‘$NDK_ROOT/toolchains/aarch64-linux-android-4.9/prebuilt/darwin- 
x86_64/bin 


“编译 过 程 中 使 用 的 编译 工具 都 存在 于 上 述 目 录 下 。 


.APP_STL: =gnustl_static，NDK 构 建 系统 提供 了 由 Android 系 统 给 
出 的 最 小 C++ 运 行 时 库 〈/systenylibylibstdc++.so) 的 C++ 头 文 件 。 然 而 ， 
NDK 带 有 另 一 个 C++ 实现 ， 开 发 者 可 以 在 自己 的 应 用 程序 中 使 用 或 链接 
它 ， 定 义 APP_STL 可 选择 它们 中 的 一 个 ， 可 选项 包括 : stlport_static、 


stlport_shared、 gnustl]_static。 

















.APP_CPPFLAGS: =-std=gnu++11-fexceptions， 指 定编 译 过 程 的 
flag， 可 以 在 该 选项 中 开启 exception rtti 等 特性 ， 但 是 为 了 效率 考虑 ， 最 
好 关闭 rtti。 


:NDK_TOOLCHAIN_VERSION=4.8， 指 定 交 义工 具 编 译 链 里 面 的 
版 本 号 ， 这 里 指定 使 用 4.8。 


.APP PLATFORM: =android-9， 指 定 创 建 的 动态 库 的 平台 。 





.APP_OPTIM: =release， 该 变量 是 可 选 的 ， 用 来 定 
义 “release” 或 “debug”， “release” 模 式 是 默认 的 ， 并 且 会 生成 局 度 优 化 的 
二 进 制 代码 ; “debug” 模 式 生成 的 是 未 优化 的 二 进 制 代 码 ， 但 是 可 以 检 
测 出 很 多 的 BUG， 经 常用 于 调试 阶段 ， 也 相当 于 在 ndk-build 指 令 后 边 直 
接 加 上 参数 NDK_DEBUG=1。 





2. 如 何 交 叉 编 译 


上 文 讲 解 了 NDK 的 结构 ， 以 及 构建 系统 的 基本 语法 。 本 节 将 直接 对 
LAME、EFDK_AAC、X264 这 三 个 库 进 行 交叉 编 译 。 








(1) LAME 的 交叉 编译 


在 Android 的 编译 中 ， 一 般 情况 下 会 使 用 一 个 Shell 脚 本 文件 ， 指 定 
好 编译 器 里 面 的 各 个 工具 ， 然 后 把 对 应 的 Configure 的 命令 与 选项 开关 配 
置 好 ， 最 后 执行 该 Shell 脚 本 : 





#!/bin/bash 

NDK_ROOT=/Users/apple/soft/android/android-ndk-r9b 
PREBUILT=$NDK_ROOT/toolchains/arm-linux-androideabi-4.6/prebuilt/darwin- 
x86_64 

PLATFORM=$NDK_ROOT/platforms/android-9/arch-arm 

export PATH=$PATH:$PREBUILT/bin:$PLATFORM/USr/include: 


export LDFLAGS="-L$PLATFORM/USr/lib -L$PREBUILT/arm-linux-androideabi/1ib 
-march=armv7-a" 
export CFLAGS="-I$PLATFORM/UsSr/include -march=armv7-a -mfloat-abi=softfp - 
mfpu=vfp 
-ffast-math -02" 


export CPPFLAGS="$CFLAGS" 
export CFLAGS="$CFLAGS" 

export CXXFLAGS="$CFLAGS" 
export LDFLAGS="$LDFLAGS" 


export AS=$PREBUILT/bin/arm-linux-androideabi-as 

export LD=$PREBUILT/bin/arm-linux-androideabi-1d 

export CXX="$PREBUILT/bin/arm-linux-androideabi-g++ --Sysroot=${PLATFORM}" 

export CC="$PREBUILT/bin/arm-linux-androideabi-gcc --sysroot=${PLATFORM} 
-march=armv7-a " 

export NM=$PREBUILT/bin/arm-linux-androideabi-nm 

export STRIP=$PREBUILT/bin/arm-linux-androideabi-strip 

export RANLIB=$PREBUILT/bin/arm-linux-androideabi-ranlib 

export AR=$PREBUILT/bin/arm-linux-androideabi-ar 


./configure --host=arm-]linux \ 
--disable-shared \ 
--disable-frontend \ 
--enable-static \ 
--prefix=./armv7ia 


make clean 
make -j8 
make install 





下 面 就 来 针对 该 脚本 的 每 一 行 命令 进行 详细 解释 。 


第 一 部 分 是 设置 NDK_ROOT， 并 且 声 明 platform 和 prebuilt， 最 终 配 
置 可 在 环境 变量 中 查看 。 

第 二 部 分 主要 是 声明 CFLAGS 与 LDFLAGS， 其 目的 是 在 编译 和 和 链 
接 阶 段 找到 正确 的 头 文件 与 链接 到 正确 的 库 文 件 。 这 里 需要 特别 注意 的 
是 ， 在 这 两 个 设置 的 后 边 都 加 上 了 -march=armv7-a， 这 相当 于 是 让 编译 
器 知道 要 编译 的 目标 平台 是 armv7-a。 








第 三 部 分 是 声明 CC、AS、AR、LD、NM、STRIP 等 工具 ， 具 体 每 
一 个 工具 是 做 什么 用 的 ， 前 面 都 已 经 介绍 过 了 ， 如 果 要 编译 armv5、x86 
或 者 arm64-v8a， 那 么 在 代码 仓库 中 会 提供 全 量 编译 的 Shell 脚 本 文件 。 

第 四 部 分 束 是 使 用 LAME 本 映 的 Configure 进 行 编译 裁 有 六。 

第 五 部 分 就 是 使 用 标准 的 编译 链接 和 安装 。 

最 终 执行 脚本 成 功 之 后 ， 可 以 看 到 在 指定 的 Prefix 目 录 下 面 ， 包含 
了 lib 和 include 目 录 ， 里 面 分 别 是 静态 库 文件 和 头 文 件 ， 这 两 个 目录 的 作 
用 在 前 面 已 经 说 过 很 多 裔 了 ， 在 此 不 再 歼 述 。 


(2) FDK_AAC 的 交叉 编译 








#!/bin/bash 

./configure --host=armv7a \ 
--enable-static \ 
--disable-shared \ 
--prefix=./armv7a/ 


make clean 
make -j8 
make install 





注 : 这 里 没有 给 出 声明 NDK_ROOT 以 及 各 个 编译 工具 的 代码 。 


其 实 FDK_AAC 的 交叉 编译 并 没有 什么 可 解说 的 ， 配 置 好 环境 变量 
之 后 ， 执 行 Configure， 然 后 安装 就 可 以 了 。 


(3) X264 的 交叉 编译 








#!/bin/bash 
./configure --prefix=$PREFIX \ 


--enable-static \ 

--enable-pic \ 

--enable-strip \ 

--disable-cli \ 

--disable-asm \ 

--extra-cflags="-march=armv7-a -02 -mfloat-abi=softfp -mfpu=neon" \ 
--host=arm-linux \ 
--cross-prefix=$PREBUILT/bin/arm-linux-androideabi- \ 
--Sysroot=$PLATFORM 





注 : 这 里 没有 给 出 声明 NDK_ROOT 以 及 各 个 编译 工具 的 代码 。 
对 于 X264 的 编译 裁剪 ， 这 里 有 如 下 几 个 关键 点 。 


'extra-cflags 选 项 的 配置 。 针 对 armv7-a 的 CPU 打开 NEON 的 优化 运 
行 指令 ， 并 且 打 开 了 02 编 译 优化 ， 这 是 非常 重要 的 一 点 。 


`--disable-asm 选 项 的 配置 。 如 果 不 禁 用 挥 asm 指 令 ， 则 意味 着 将 会 
禁止 neon 的 指令 。 


2.3.4 使 用 LAME 编 码 MP3 文 件 


2.3.3 节 为 两 个 平台 交叉 编译 了 多 个 库 ， 本 节 束 以 上 文 编译 出 来 的 
LAME 库 进行 编码 工作 。 本 三 要 实现 的 目标 是 ， 在 添加 好 C++ 支持 的 项 
目 中 加 入 编码 MP3 文 件 的 功能 。 当 点 击 按钮 的 时 候 ， 输 入 的 是 一 个 PCM 
文件 的 路 径 和 一 个 MP3 的 路 径 ， 等 运行 完毕 ， 电 脑 上 的 播放 器 吉 接 就 可 
以 播放 该 MP3 文 件 。 


首先 ， 用 一 个 C++ 的 类 来 实现 其 业务 逻辑 ， 输 入 就 是 两 个 char 指 针 
类 型 的 路 径 ， 编 码 成 功 之 后 ， 输 出 一 行 编码 成 功 的 Log， 然 后 在 之 前 的 
项 目 基础 上 集成 进 这 段 代 码 ， 再 运行 并 测试 。 


1. 编 码 工 具 类 的 编写 
首先 新 建 两 个 文件 : mp3_encoder.h 和 mp3_encoder.cpp。 


先 看 一 下 头 文 件 应 该 如 何 编写 ， 头 文件 其 实 就 是 用 于 定义 该 类 对 外 
提供 的 接口 。 

这 里 提供 的 是 一 个 Init 接 口 ， 输 入 的 是 一 个 PCM FilePath 和 一 个 MP3 
FilePath， 会 判定 输入 文件 是 否 存 在 、 初 始 化 LAME 以 及 初始 化 输出 文件 


的 资源 ， 返 回 值 是 该 函数 是 否 成 功 初 始 化 了 所 有 的 相关 资源 ， 成 功 则 返 
回 true， 人 否则 返回 false。 


此 外 ， 还 要 再 提供 一 个 encode 方 法 ， 负 贡 读 取 PCM 数 据 ， 并 且 调 用 
LAME 进 行 编码 ， 然 后 将 编码 之 后 的 数据 写 入 文件 。 


最 后 再 对 外 提供 一 个 销毁 资源 的 接口 destroy 方 法 ， 用 于 关闭 所有 的 
资源 。 


按照 上 述 分 析 ， 建 立 头 文件 如 下 : 























class Mp3Encoder { 
private 
FILE* pcmFile,; 
FILE* mp3File,; 
lame_t lameClient,; 


public: 
Mp3Encoder(); 


~Mp3Encoder() ; 
int Init(const char* pcmFilePath，const char *mp3FilePath, int 
sampleRate, int channels, int bitRate ) ， 
void Encode(); 
void Destory!(); 
}; 





既然 尖 文 件 已 经 定义 好 了 ， 接 下 来 就 一 起 来 实现 。 


首先 是 Init 方 法 的 实现 ， 以 读 二 进 制 文件 的 方式 打开 PCM 文 件 ， 以 
写 入 二 进 制 文件 的 方式 打开 MP3 文 件 ， 然 后 初始 化 LAME。 上 其 体 代 码 如 
下 : 








int Mp3Encoder::Init(const char* pcmFilePath, const char * 
mp3FilePath, int sampleRate, int channels, int bitRate) { 
int ret = -1; 
pcmFile = fopen(pcmFilePath, "rb"); 
if(pcmFile) { 
mp3File = fopen(mp3FilePath, "wb"); 
if(mp3File) { 
lameClient = lame_init(); 
lame_set_in_samplerate(lameClient, sampleRate); 
lame_set_out_samplerate(lameClient, sampleRate); 
lame_set_num_channels(lameClient, channels); 
lame_set_brate(lameClient, bitRate / 1000); 
lame_init_params(lameClient); 
ret = 0) 
Dy 
} 


return ret; 





其 次 是 Encode 方 法 的 实现 ， 函 数 主体 是 一 个 循环 ， 每 次 都 会 读 取 一 
段 bufferSize 大 小 的 PCM 数 据 buffer， 然 后 再 编码 该 buffer， 但 是 在 编码 
buffer 之 前 得 把 该 buffer 的 左右 声 道 拆 分 开 ， 再 送 入 到 LAME 编 码 器 ， 最 
后 将 编码 之 后 的 数据 写 入 MP3 文 件 中 。 具 体 代码 如 下 : 





void Mp3Encoder::Encode() { 
int bufferSize = 1024 * 256; 
short* buffer = new short[bufferSize / 2]; 
short* leftBuffer = new short[bufferSize / 4]; 
short* rightBuffer = new short[bufferSize / 4]; 
unsigned char* mp3_buffer = new unsigned char[bufferSize]; 
size _t readBufferSize = 0; 
while ((readBufferSize = fread(buffer, 2, bufferSize / 2, pcmFile)) > 0) 
for (int i = 0; i < readBufferSize; i++) { 
if (i % 2 == 0) { 
leftBuffer[i / 2] = buffer[i]; 
} else { 
rightBuffer[i / 2] = buffer[i]; 


Size_t wroteSize = lame encode buffer(lameClient, (Short 
int *) leftBuffer, (short int *) rightBuffer, 
(int)(readBufferSize / 2), mp3_buffer, bufferSize); 

fwrite(mp3_buffer, 1, wroteSize, mp3File); 


} 

delete[] buffer ; 
delete[] leftBuffer ; 
delete[] rightBuffer ; 
delete[] mp3_buffer ; 





最 后 是 Destroy 方 法 ， 关 闭 PCM 文 件 ， 关 闭 MP3 文 件 ， 销 毁 LAME。 
具体 代码 如 下 : 





void Mp3Encoder::Destory() { 
if(pcmFile) { 
fclose(pcmFile); 


} 

if(mp3File) { 
fclose(mp3File); 
lame_close(lameClient); 


} 





实现 结束 之 后 ， 接 下 来 就 是 把 该 类 集成 到 iOS 和 Android 客 户 端 。 
2.iOS 集 成 
首先 打开 2.1 节 开发 的 项 目 添加 了 C++ 支 持 的 OS 工程 。 


然后 在 ViewController.mm 中 直接 实例 化 C++ 类 型 的 类 Mp3Encoder， 
将 vocalpcm 的 文件 放 入 沙 盒 中 ， 利 用 下 面 这 行 代码 获取 PCM 的 路 径 : 











[[[NSBundle mainBundle] bundlePath] stringByAppendingPathComponent : @"vocal. 





接着 利用 下 面 的 代码 获取 最 终 要 写 入 的 MP3 文 件 的 路 径 : 





NSArray *paths = NSSearchPathForDirectorieSsInDomains(NSDocumentDirectory， 
NSUserDomainMask, YES); 

NSString *documentsDirectory = [paths objectAtIndex:0]; 

[documentsDirectory stringByAppendingPathComponent:@"vocal.mp3"]; 





最 后 直接 调用 Mp3Encoder 类 的 encode 方 法 ， 编 码 音 频 文件 。 最 终 编 
码 方法 执行 结束 ， 不 要 瑟 记 调用 该 C++ 类 的 destroy 方 法 ， 0 资 
源 。 然 后 运行 程序 ， 点 击 编码 按钮 ， 等 竺 编码 结束 之 后 ， 通 
Xcode/device 中 的 Download 沙 盒 功 能 ， 0 pe 可 以 
使 用 电脑 默认 的 播放 器 播放 该 MP3 文 件 ， 试 试看 是 否 能 正常 播放 。 


3.Android 集 成 
首先 打开 2.2 节 开发 的 项 目 


然后 在 com.phuket.tour.studio 包 下 修改 Mp3Encoder 文 件 ， 并 写 入 三 
个 native 方 法 : 








添加 了 C++ 文 持 的 Android 工 程 。 








public native :int init(String pcmPath, int audioChannels, int bitRate, int 
sampleRate, String mp3Path ) ， 

public native void encode( ) ; 

public native void destroy()， 








0 并 且 在 实现 的 C++ 文件 中 实现 这 三 个 
方法 。 


在 init 方 法 中 实例 化 Mp3Encoder 类 ， 人 然后 调用 初始 化 方法 : 








const char* pcmPath = env->GetStringUTFChars(pcmPathParam，NULL ) ， 
const char* mp3Path = env->GetStringUTFChars(mp3PathParam, NULL); 
encoder = new Mp3Encoder(); 

encoder->Init(pcmPath, mp3Path, sampleRate, channels, bitRate); 
env->ReleaseStringUTFChars(mp3PathParam，mp3Path ) ， 
env->ReleaseStringUTFChars(pcmPathParam，pcmPath ) ， 





在 encode 方 法 中 直接 调用 Mp3Encoder 的 encode 方 法 ; 在 destroy 方 法 
中 则 调用 Mp3Encoder 的 destroy 方 法 ; 最 后 ， 修 改 Android.mk 文 件 ， 将 最 
新 的 C++ 文件 加 入 LOCAL_SRC 中 ， 并 且 在 include 的 路 径 中 增加 LAME 
的 头 文件 所 在 的 路 径 : 





LOCAL_C_INCLUDES := \ 
$(LOCAL_PATH)/../3rdparty/lame/include 








当然 ， 还 需要 在 链接 阶段 加 入 编译 出 来 的 静态 库 ， 因 此 需要 键入 以 





LOCAL_LDLIBS += -L$(LOCAL_ PATH)/3rdparty/lame/lib -lmp3lame 





这 样 重 新 执行 ndk-build 命 令 就 可 以 将 最 新 的 so 库 打 出 来 了 。 也 


现在 ， 在 MainActivity 中 ， 传 入 正确 的 输入 路 径 和 输出 路 径 〈 需 要 
提前 准备 一 段 PCM 数 据 放 入 输入 路 径 下 面 ) ， 等 编码 结束 之 后 ， 取 出 输 
出 路 径 的 MP3 文 件 ， 在 电脑 上 播放 ， 确 认 一 下 是 否 正 确 。 


[1 so 库 是 gcc 或 g++ 编译 过 后 形成 的 一 种 动态 库 ， 最 终 可 以 被 加 载 到 程 
序 中 使 用 





2.4 本 章 小 结 


本 章 主 要 介绍 了 如 何 创 建 一 个 Android 项 目 和 一 个 iOS 项 目 ， 然 后 为 
这 两 个 项 目 增加 C++ 支持 ， 接 着 讨论 了 交叉 编译 ， 最 后 利用 交叉 编译 出 
来 的 LAME 库 ， 在 两 个 平台 上 完成 编码 MP3 音 频 文 件 的 功能 。 本 章 的 内 
容 是 音 视频 开发 的 基础 内 容 ， 希 望 读者 熟练 掌握 。 





第 3 章 FFmpeg 的 介绍 与 使 用 


若 要 讲解 首 视 频 的 开发 ， 首 先 不 得 不 提 开 源 框架 FFmpeg。 该 开源 
框架 为 音 视频 开发 者 们 提供 了 非常 大 的 帮助 ， 其 也 是 全 世界 的 音 视频 开 
发 工程 师 都 应 该 掌握 的 工具 。FFmpeg 是 一 套 可 以 用 来 记录 、 处 理 数 字 
音频 、 视 频 ， 并 将 其 转换 为 流 的 开源 框架 ， 采 用 LPL 或 GPL 许可 证 ， 提 
供 了 录制 、 转 换 以 及 流 化 音 视 频 的 完整 解决 方案 。 它 的 可 移植 性 或 者 说 
跨 平 台 特 性 非常 强大 ， 可 以 用 在 Linux 服 务 器 、PC (包括 Windows、 
Mac OS X 等 ) 、 移 动 端 设备 (Android、iOS 等 移动 设备 ) 等 平台 。 名 称 
中 的 mpeg 来 自视 频 编 码 标准 MPEG， 而 前 缀 FF 是 Fast Forward 的 首 字 母 
缩写 。 本 章 会 从 编译 开始 讲解 ， 然 后 介绍 命令 行 工 具 的 使 用 ， 接 着 会 介 
绍 FFmpeg 在 代码 层面 提供 给 开发 者 的 API， 最 后 会 从 源码 的 角度 分 析 一 
下 整个 FFmpeg 框 架 ， 现 在 就 让 我 们 开始 吧 。 


3.1 FFmpeg 的 编译 与 命令 行 工具 的 使 用 
3.1.1 FFmpeg 的 编译 
1.FFmpeg 编 译 选 项 详解 


首先 到 FFmpeg 官 网 上 下 载 稳定 版 本 的 FFmpeg 源 码 ， 本 章 将 会 从 下 
载 到 的 最 干净 的 代码 开始 逐步 进行 操作 。 然 后 将 下 载 的 源码 解压 到 一 个 
目录 中 ，FFmpeg 与 大 部 分 GNU 软 件 的 编译 方式 类 似 ， 都 是 通过 
configure 脚 本 来 实现 编译 前 定制 的 ， 这 种 方式 允许 用 户 在 编译 前 对 软件 
进行 裁剪 ， 同 时 通过 对 最 终 运 行 到 的 系统 以 及 目标 平台 的 配置 来 决定 对 
某 些 模块 设 定 合 适 的 配置 。configure 脚 本 运行 完毕 之 后 ， 会 生成 
config.mk 和 config.h 这 两 个 文件 ， 分 别 作用 到 makefile 和 源 代 码 的 层次 ， 
由 这 两 个 部 分 协同 实现 对 编译 选项 的 控制 。 所 以 下 面 先 来 看 看 configure 
的 脚本 ， 可 以 利用 它 的 heljp 命 令 来 查看 其 到 底 提 供 了 哪些 选项 ? 




















./configure -help 





:标准 选项 : GNU 软件 例 行 配置 项 目 ， 例 如 安装 路 符 、--prefix=.… 
等 


于 








编译、 链接 选项 :默认 配置 是 生成 静态 库 而 不 是 生成 动态 库 ， 例 


如 --disable-static、--enable-shared 等 。 





可 执行 程序 控制 选项 : 决定 是 否 生 成 FFmpeg、ffplay、ffprobe 和 


ffserver 等 。 


.模块 控制 选项 : 裁剪 编译 模块 ， 包 括 整 个 库 的 裁剪 ， 例 如 --disable- 
avdevice; 一 组 模块 的 筛选 ， 例 如 --disable-decoders; 单个 模块 的 裁剪 ， 
例如 --disable-demuxer。 


能力 展示 选项 : 列 出 当前 源 代码 支持 的 各 种 能 力 集 ， 例 如 --list- 


decoders、--list-encoders。 


其他: 允许 开发 者 深度 定制 ， 如 交叉 编译 环境 配置 、 目 定义 编译 
融 参 数 的 设 定 等 。 


下 面 先 给 出 一 人 总览 大 体 了 解 一 下 FFmpeg 的 整体 结构 ， 如 图 3-1 
砂 。 


libswscale 





er Wieldiakl 


libswresample 


|ibavuiil 


图 3-1 


下 面 这 段 代 码 是 一 个 配置 实例 ， 用 于 实现 运行 于 Android 系 统 中 的 
FFmpeg 库 的 编译 : 





libavfilter 


libavcodec 





[yesieis 











./configure -prefix=. \ 

--Cross-prefix=$NDK_TOOLCHAIN_PREFIX \ 

--enable-cross-compile \ 

--arch=arm --target-os=linux \ 

--disable-static -enable-shared \ 

--disable-ffmpeg --disable-ffplay -disable-ffserver -disable-ffprobe 





默认 的 编译 会 生成 4 个 可 执行 文件 和 8 个 静态 库 。 可 执行 文件 包括 用 
于 转 码 、 推 流 、Dump 媒 体 文件 的 fftmpeg、 用 于 播放 媒体 文件 的 ffplay、 
用 于 获取 媒体 文件 信息 的 ffprobe， 以 及 作为 简单 流 媒 体 服务 器 的 


ffserver。 





8 个 静态 库 其 实 就 是 EFmpeg 的 8 个 模块 ， 有 具体 包括 如 下 内 容 。 


AVUtil: 核心 工具 库 ， 该 模块 是 最 基础 的 模块 之 一 ， 下 面 的 许多 
其 他 模块 都 会 依赖 该 库 做 一 些 基 本 的 音 视 频 处 理 操作 。 


“AVFormat: 文件 格式 和 协议 库 ， 该 模块 是 最 重要 的 模块 之 一 ， 封 
装 了 Protocol 层 和 Demuxer、Muxer 层 ， 使 得 协议 和 格式 对 于 开发 者 来 说 


征 透 明 的 。 


“AVCodec: 编 解 码 库 ， 该 模块 也 是 最 重要 的 模块 之 一 ， 封 装 了 
Codec 层 ， 但 是 有 一 些 Codec 是 有 具备 自己 的 License 的 ，FFmpeg 是 不 会 默 
认 添 加 像 libx264、FDK-AAC、lame 等 库 的 ， 但 是 FFmpeg 就 像 一 个 平台 
一 样 ， 可 以 将 其 他 的 第 三 方 的 Codec 以 插件 的 方式 添加 进来 ， 然 后 为 开 
发 者 提供 统一 的 接口 。 


“AVFilter: 首 视频 滤 镜 库 ， 该 模块 提供 了 包括 首 频 特效 和 视频 特效 
的 处 理 ， 在 使 用 FFmpeg 的 API 进 行 编 解码 的 过 程 中 ， 直 接 使 用 该 模块 为 
音 视频 数据 做 特效 处 理 是 非常 方便 同时 也 非常 高 效 的 一 种 方式 。 


.AVDevice: 输入 输出 设备 库 ， 比 如 ， 需 要 编译 出 播放 声音 或 者 视 
频 的 工具 ffplay， 就 需要 确保 该 模块 是 打开 的 ， 同 时 也 需要 ]ibSDL 的 预 
先 编译 ， 因 为 该 设备 模块 播放 声音 与 播放 视频 使 用 的 都 是 libSDL 库 。 


:SwrRessample: 该 模块 可 用 于 音频 重 采 样 ， 可 以 对 数字 音频 进行 
声 道 数 、 数 据 格式 、 采 样 率 等 多 种 基本 信息 的 转换 。 


“SWScale: 该 模块 是 将 图 像 进 行 格式 转换 的 模块 ， 比 如 ， 可 以 将 
YUV 的 数据 转换 为 RGB 的 数据 。 


.PostProc: 该 模块 可 用 于 进行 后 期 处 理 ， 当 我 们 使 用 AVFilter 的 时 
Ns 因为 Filter 中 会 使 用 到 该 模块 的 一 些 基础 函 














如 果 是 比较 老 的 FFmpeg 版 本 ， 那 么 有 可 能 还 会 编译 出 来 avresample 
模块 ， 该 模块 其 实 也 是 用 于 对 音频 原始 数据 进行 重 采 样 ， 但 是 现在 已 经 
被 废弃 抒 了 ， 不 再 推荐 使 用 该 库 ， 而 是 使 用 swrresample 库 进行 蔡 代 。 


如 何 为 FFmpeg 平 台 引 入 第 三 方 编 解 码 库 呢 ? 下 面 就 以 最 常用 的 











LAME、X264、FDK-AAC 进 行 举例 。 前 面 的 章节 中 已 经 介绍 了 这 三 个 
库 在 Android 和 iOS 平 台 上 的 交叉 编译 ， 现 在 就 假设 已 经 交叉 编译 出 了 
LAME、X264、FDK-AAC 的 静态 库 与 头 文 件 ， 并 且 在 FEmpeg 的 源码 目 
录 下 建立 了 external-libs 目 录 ， 还 在 其 中 建立 了 LAME、X264、FDK- 
AAC 三 个 目录 ， 每 个 目录 中 的 结构 都 包含 了 include 和 1lib 两 个 目录 ， 并 且 
将 编译 出 来 的 头 文件 和 静态 库 文 件 分 别 都 放 到 了 这 两 个 目录 下 面 。 


现在 修改 编译 脚本 如 下 。 
新 增 X264 编 码 费 需要 新 增 以 下 脚本 : 

















--enable-muxer=h264 \ 

--enable-encoder=1libx264 \ 

--enable-1libx264 \ 
--extra-cflags=”-Iexternal-libs/x264/include” \ 
--extra-ldflags=”-Lexternal-libs/x264/1ib” \ 





新 增 LAME 编 码 器 需要 新 增 以 下 脚本 : 





--enable-muxer=mp3 \ 
--enable-encoder=libmp3lame \ 
--enable-libmp3lame \ 
--extra-cflags=”-Iexternal-libs/lame/include” \ 
--extra-ldflags=”-Lexternal-libs/lame/lib” \ 





新 增 FDK-AAC 编 码 器 需要 新 增 以 下 上 脚本: 





--enable-encoder=]libfdk_aac \ 

--enable-libfdk_aac \ 
--extra-cflags=”-Iexternal-libs/fdk-aac/include” \ 
--extra-ldflags=”-Lexternal-libs/fdk-aac/lib” \ 





读者 可 以 按照 自己 的 应 用 场景 ， 把 需要 编译 进来 的 第 三 方 库 以 修改 
的 方式 进行 编译 ， 然 后 以 命令 行 模式 或 者 以 API 调 用 的 方式 进 
行使 用 。 


在 FFmpeg 中 ， 有 一 个 类 型 的 filter 称 为 bit stream filter， 要 想 在 开发 
过 程 中 使 用 该 filter， 则 需要 在 编译 的 过 程 中 打开 它 。 该 filter 存在 的 意义 
主要 是 应 对 某 些 格式 的 封装 转换 行为 。 比 如 AAC 编 码 ， 常 见 的 有 两 种 封 
装 格式 : 一 种 是 ADTS 格 式 的 流 ， 是 AAC 定 义 在 MPEG2 里 面 的 格式 ; 男 


外 一 种 是 封装 在 MPEG4 里 面 的 格式 ， 这 种 格式 会 在 每 一 帧 前 面 拼 接 一 
个 用 声 道 、 采 样 率 等 信息 组 成 的 头 。 开 发 者 完全 可 以 手动 拼接 该 头 信 
四 ， 即 将 AAC 编 码 器 输出 的 原始 码 流 (ADTS 头 +ES 流 ) 封装 进 MP4、 
FLV 或 者 MOV 等 格式 的 容器 中 时 ， 需 要 先 将 ADTS 头 转换 为 MPEG-4 
AudioSpecficConfig (描述 了 编码 器 的 配置 参数 ) 头 ， 并 去 抒 原 始 码 流 
中 的 ADTS 头 《只 剩 下 ES 流 ) 。 但 是 使 用 FFmpeg 提 供 好 的 aac_adtstoasc 
类 型 的 bit stream filter 可 以 非常 方便 地 进行 转换 ，FFmpeg 为 开发 者 隐藏 
了 实现 的 细节 ， 并 且 提 供 了 更 好 的 代码 可 读 性 。 知 想 要 正常 使 用 这 个 
filter， 则 需要 在 编译 过 程 中 打开 下 面 这 个 选项 : 











--enable-bsf=aac_adtstoasc 








AAC 的 bit stream filter 和 常常 应 用 在 编码 的 过 程 中。 与 音频 的 AAC 编 
人 码 格 式 相 对 应 的 是 视频 中 的 H264 编 码 ， 它 也 有 两 种 封装 格式 : 一 种 是 
MP4 封 装 的 格式 ; 一 种 是 裸 的 H264 格 式 〈 一 般 称 为 annexb 封 装 格式 ) 。 
FFmpeg 中 也 提供 了 对 应 的 bit stream filter， 称 为 H264_mp4toannexb， 可 
以 将 MP4 封 装 格式 的 H264 数 据 包 转 换 为 annexb 封 装 格式 的 H264 数 据 
(其 实 束 是 裸 的 H264 的 数据 〉 包 。 当 然 ， 也 可 以 手动 写 代码 来 实现 这 
件 事情 ， 但 是 既然 FFmpeg 提 供 了 这 样 好 用 的 模块 ， 我 们 为 什么 不 用 
呢 ? 要 使 用 它 也 只 需要 在 编译 过 程 中 打开 下 面 这 个 选项 即 可 : 





--enable-bsf=h264_mp4toannexb 








H264 的 bit stream filter 常 常 应 用 于 视频 解码 过 程 中 ， 特 别 是 后 期 在 
讲解 使 用 各 个 平台 上 提供 的 硬件 解码 器 时 ， 一 定 会 用 到 该 bit stream 
filter。 


2.FFmpeg 的 交叉 编译 


第 2 章 已 经 介绍 了 交叉 编译 的 原理 ， 并 且 交 叉 编 译 出 了 LAME、 
FDK_AAC、X264 等 第 三 方 库 ， 本 章 也 已 经 介绍 了 了 FFmpeg 中 Configure 
的 大 部 分 关键 语法 与 定义 ， 因 此 这 里 就 直接 开始 交叉 编译 FFmpeg 吧 ! 
不 过 ， 对 应 于 Android 和 iOS 平 台 会 有 一 些 通用 的 配置 选项 ， 这 里 先 列 出 
通用 的 配置 选项 ， 代 码 如 下 : 











CONFIGURE_FLAGS=--disable-shared \ 
--enable-static \ 


--disable-stripping \ 
--disable-ffmpeg \ 
--disable-ffplay \ 
--disable-ffserver \ 
--disable-ffprobe \ 
--disable-avdevice \ 
--disable-devices \ 
--disable-indevs \ 
--disable-outdevs \ 
--disable-debug \ 
--disable-asm \ 
--disable-yasm \ 
--disable-doc \ 
--enable-small 和 
--enable-dct \ 
--enable-dwt \ 
--enable-lsp \ 
--enable-mdct \ 
--enable-rdft \ 
--enable-fft \ 
--enable-version3 \ 
--enable-nonfree \ 
--disable-filters \ 
--disable-postproc \ 
--disable-bsfs \ 
--enable-bsf=aac_ adtstoasc \ 
--enable-bsf=h264_mp4toannexb \ 
--disable-encoders \ 
--enable-encoder=pcm_si6le \ 
--enable-encoder=aac \ 
--enable-encoder=libvo_aacenc \ 
--disable-decoders \ 
--enable-decoder=aac \ 
--enable-decoder=mp3 \ 
--enable-decoder=pcm_si6le \ 
--disable-parsers \ 
--enable-parser=aac \ 
--disable-muxers \ 
--enable-muxer=flv AN 
--enable-muxer=wav \ 
--enable-muxer=adts \ 
--disable-demuxers \ 
--enable-demuxer=flv \ 
--enable-demuxer=wav \ 
--enable-demuxer=aac \ 
--disable-protocols \ 
--enable-protocol=rtmp \ 
--enable-protocol=file \ 
--enable-libfdk_aac \ 
--enable-libx264 \ 
--enable-cross-compile \ 
--prefix=$INSTALL_DIR 





可 以 看 到 为 了 达到 最 小 的 包 体 积 ， 需 要 先 关 掉 所 有 的 模块 ， 然 后 再 
打开 具体 的 编 解码 器 、 解 析 器 、 解 复 用 器 、 协 议 ， 并 且 这 里 开启 了 两 个 
第 三 方 的 Codec: 一 个 是 FDK_AAC; 另外 一 个 是 X264。 此 处 还 关闭 了 
命令 行 工具 与 帮助 文档 、 输 入 输出 设备 、 动 态 库 生成 ， 同 时 还 打开 了 静 








态 库 的 生成 。 由 于 要 进行 交叉 编译 ， 所 以 要 在 倒数 第 二 行 打开 交叉 编 译 
的 选项 ， 在 最 后 一 行 指定 安装 库 的 目标 目录 。 


对 于 Android 平 台 来 讲 ，Shell 脚 本 需要 添加 如 下 内 容 : 











ANDROID_ NDK_ROOT=/Users/apple/soft/android/android-ndk-r9b 
PREBUILT=$ANDROID_ NDK_ROOT/toolchains/arm-linux-androideabi- 
4.8/prebuilt/darwin-x86_64 
PLATFORM=$ANDROID_NDK_ROOT/platforms/android-8/arch-arm 
./configure \ 

$CONFIGURE_FLAGS \ 

--target-os=linux \ 

--arch=arm \ 

--cross-prefix=$PREBUILT/bin/arm-linux-androideabi- \ 
--Sysroot=$PLATFORM \ 

--extra-cflags="-marm -march=armv7-a -Ifdk_aac/include -Ix264 /include" \ 
--extra-ldflags="-marm -march=armv7-a -Lfdk_aac/lib -Lx264 /lib" 








可 以 看 到 ， 上 述 脚 本 中 指定 了 运行 的 平台 与 架构 ， 指 定 了 编译 右 、 
链接 占 的 前 级 ， 以 用 于 执行 真正 的 编译 与 链接 操作 ， 然 后 给 出 sysroot 和 
编译 、 链 接 参 数 。 这 里 是 以 armv7a 作 为 编译 日 标 架 构 的 ， 如 果 读 者 想 自 
ne 可 以 查看 代码 仓库 中 的 编译 脚本 ， 这 里 不 

列举 。 


对 于 iOS 平 台 来 讲 ，Shell 脚 本 需要 添加 如 下 内 容 : 








./configure \ 

$CONFIGURE_FLAGS \ 

--target-os=darwin 

--cc=xcrun -sdk iphoneos clang \ 

--arch=armv7 \ 

--extra-cflags="-arch armv7 -mios-version-min=7.0 -Ifdk_aac/include 
-Ix264/include" \ 

--extra-ldflags="-arch armv7 -mios-version-min=7.0 -Lfdk_aac/l1ib 

Lx264 /lib" 





可 以 看 到 ， 上 述 脚 本 中 设置 了 编译 占 以 及 目标 运行 平台 ， 需 要 说 明 
的 是 ， 这 里 指定 了 最 小 的 i0S 的 运行 平台 是 7.0， 人 否则 将 这 个 库 集 成 到 
Xcode 中 的 时 候 会 遇 到 平台 不 匹配 的 警告 ， 此 外 ， 需 要 注意 的 是 这 里 并 
没有 打开 bitcode， 这 会 导致 集成 进入 Xcode 之 后 必须 将 项 目的 bitcode 选 
项 关闭 掉 。 若 要 为 编译 的 库 打 开 bitcode 选 项 ， 那 么 在 编译 参数 中 增加 下 
面 这 行 参数 就 可 以 了 : 








-fembed-bitcode 





3.FFmpeg 命 令 行 工 具 的 编译 与 安装 





在 介绍 FFmpeg 的 命令 行 之 前 ， 应 先 安装 FFmpeg， 前 面 已 经 介绍 过 
了 FFmpeg 的 编译 ， 但 那 是 基于 Android 平 台 的 交叉 编译 ， 而 不 是 安装 在 
PC 上 的 工具 ， 虽 然 有 些 读 者 可 能 会 说 我 们 做 的 是 移动 端 上 的 开发 ， 和 
PC 上 的 FFmpeg 有 什么 关系 呢 ? 但 是 不 可 否认 的 是 ， 开 发 者 用 于 开发 的 
机 器 上 有 一 套 强 大 的 音 视频 工具 ， 对 开发 移动 端 上 的 音 视 频 项 目 是 非常 
重要 的 。 相 信 有 了 上 文 的 介绍 ， 在 这 里 介绍 FFmpeg 的 配置 与 安装 应 该 


会 很 轻松 。 


下 面 给 出 一 个 编译 脚本 config_pc.sh: 














#!/bin/bash 

./configure \ 

--enable-gpl \ 
--disable-shared \ 
--disable-asm \ 
--disable-yasm \ 
--enable-filter=aresample \ 
--enable-bsf=aac_adtstoasc \ 
--enable-small \ 

--enable-dct \ 

--enable-dwt \ 

--enable-lsp \ 

--enable-mdct \ 

--enable-rdft \ 

--enable-fft \ 
--enable-static \ 
--enable-version3 \ 
--enable-nonfree \ 
--enable-encoder=libfdk_aac \ 
--enable-encoder=1libx264 \ 
--enable-decoder=mp3 \ 
--disable-decoder=h264_vda \ 
--disable-d3diiva \ 
--disable-dxva2 \ 
--disable-vaapi \ 
--disable-vda \ 
--disable-vdpau \ 
--disable-videotoolbox \ 
--disable-securetransport \ 
--enable-l1ibx264 \ 
--enable-libfdk_aac \ 
--enable-libmp3lame \ 
--extra-cflags="-Ipc_fdk_aac/include -Ix264 pc/include -Ipc_lame/include" \ 
--extra-ldflags="-Lpc_fdk_aac/lib -Lx264_pc/lib -Lpc_lame/lib" \ 
--prefix='/Users/apple/Desktop/ffmpegtmp_1'" 





如 果 该 文件 没有 执行 权限 ， 那 么 请 执行 以 下 命令 为 该 文件 增加 执行 


权限 : 





chmod a+x ./config_pc.sh 





然后 就 可 以 执行 该 Shell 脚 本 文件 ， 对 FFmpeg 进 行 配置 了 : 





./config_pc.sh 





该 脚本 执行 结束 之 后 ， 束 来 执行 以 下 命令 进行 编译 与 安装 : 





make && make install 











安 交 结束 之 捷 ， 进入 到 prefix 指 定 的 目录 下 查看 ， 具 体会 看 到 如 下 
几 个 目录 。 





bin: 编译 结束 的 命令 行 工 具 所 在 的 目录 ， 后 文 会 详细 介绍 该 目录 
下 的 工具 。 


-include: 编译 结束 的 头 文件 都 存放 在 该 目录 下 面 ， 如 果 要 以 编写 
代码 的 方式 调用 FFmpeg 的 API 去 完成 工作 (这 也 是 后 面 会 介绍 的 内 
容 ) ， 就 需要 把 include 中 的 目录 放 到 includes 的 配置 中 (Android 下 的 
makefile 文 件 ) 或 者 Header Search Path 中 (iOS 平 台 下 工程 文件 的 配置 选 
项 ) 。 


-lib: 其 中 存放 的 是 编译 出 来 的 静态 库 文 件 ， 其 在 以 编写 代码 的 方 
式 调用 FFmpeg 的 API 时 会 使 用 到 ， 在 编译 阶段 会 使 用 到 上 一 步 提 到 的 
include 目 录 ， 而 在 链接 阶段 则 会 使 用 到 这 个 lib 目 录 下 面 的 静态 库 了 。 


.Share: 该 目录 中 存放 了 一 些 examples， 其 中 展示 了 如 何 使 用 代码 
的 方式 调用 FFmpeg 的 API， 其 实 可 以 切换 到 configure 脚 本 所 在 的 目录 ， 
然后 执行 make examples 命 令 及 make install， 再 到 doc 下 面 的 example 里 找 
到 对 应 的 二 进 制 文件 ， 这 样 就 可 以 进行 调试 或 者 写 出 自己 的 测试 程序 





有 的 读者 可 能 会 发 现 一 个 问题 ， 在 bin 目 录 的 下 面 没 有 ffplay， 这 又 
是 为 什么 呢 ? 因为 ffplay 实 际 上 是 客户 端 ffplay.c 的 C 程 序 编译 出 来 的 ， 该 


ffplay.c 需 要 依赖 avdevice 模 块 ， 而 avdevice 模 块 使 用 了 sd 的 API， 如 果 你 
的 PC 上 没有 sdl 〈1.x 版 本 ， 最 常用 的 就 是 1.2.0) ， 那 么 ffplay 束 会 编译 不 
出 来 了 。 上 所 以 要 想 编译 出 命令 行 工 具 ffplay， 首 先 得 编译 基础 库 sdl， 可 
以 在 自己 的 PC 上 利用 安装 软件 包工 具 进 行 安装 ， 以 Mac OS 系统 为 例 ， 
使 用 brew 进 行 安 装 ， 如 果 没 有 brew 的 话 ， 则 首先 安装 brew， 可 以 执行 下 
面 命令 进行 Homebrew 的 安装 : 











ruby -e "$(curl -fsSL \ 
https://raw.githubusercontent.com/Homebrew/install/master/install)" 





等 待 一 段 时 间 ，brew 就 安装 好 了 ， 之 后 即 可 用 brew 安 装 sdl， 执 行 下 





brew install sdl 





等 竺 下载 并 且 安 装 完 毕 之 后 ， 重 新 执行 上 述 FFmpeg 的 配置 和 安装 
步骤 ， 符 make ”install 结 束 之 后 ， 再 去 bin 目 录 下 束 可 以 找到 命令 行 工 具 
ffplay 7 。 


当然 ， 还 可 以 使 用 另外 一 种 方式 为 开发 机 器 安装 FFmpeg， 即 通过 
安装 包 管 理工 具 的 方式 进行 安装 。 在 Mac OS 系统 上 直接 在 命令 行 下 键 
人 





brew install ffmpeg 





可 以 看 到 brew 会 先 下 载 X264 作 为 视频 的 编码 库 ， 并 安装 成 功 ， 然 
后 就 可 以 直接 使 用 工具 FFmpeg 了， 但 是 却 没 有 工具 ffplay， 如 果 想 安装 
ffplay， 那 么 执行 如 下 命令 : 





brew uninstall ffmpeg 
brew install ffmpeg --with-ffplay 





可 以 看 到 brew 会 先 下 载 sdl， 然 后 再 安装 ffplay， 注 意 使 用 brew 安 装 
的 FFmpeg 已 经 是 3.0 以 上 的 版 本 ， 并 且 使 用 的 sdl 也 已 经 是 2.0 版 本 了 。 


至 此 ， 关 于 FFmpeg 的 编译 部 分 就 介绍 完毕 了 ， 现 在 回顾 一 下 本 市 





的 内 容 ， 本 节 主要 介绍 了 如 何 控制 FFmpeg 各 个 模块 的 开关 ， 还 介绍 了 
如 何 将 第 三 方 编 解码 器 编译 到 FFmpeg 平 台中 ， 接 着 介绍 了 bit 。 stream 
filter 类 型 的 过 滤器 ， 然 后 把 FFmpeg 交 又 编译 到 Android 平 台 和 iOS 平 台 ， 
最 后 在 PC 上 成 功 编译 出 FFmpeg。3.1.2 节 将 会 介绍 编译 出 来 的 FFmpeg 命 
令 行 工具 ， 以 及 在 工作 中 如 何 使 用 这 些 工具 来 提高 处 理 音 视 频 的 效率 。 


3.1.2 FFmpeg 命令 行 工 具 的 使 用 


前 面 讲解 了 如 何 安装 FFmpeg 相 关 的 命令 行 ， 其 中 涉及 ffmpeg、 
ffprobe、ffplay 以 及 ffserver 等 命令 行 工具 ， 本 节 将 重点 介绍 fftmpeg、 
ffprobe 与 ffplay 这 三 个 命令 行 工 具 ， 而 ffserver 则 是 作为 简单 的 流 媒 体 服 
务 器 存在 的 ， 与 客户 端 开发 关系 不 大 ， 因 此 本 书 将 不 做 介绍 。 前 文 曾经 
提 到 fftmpeg 是 进行 媒体 文件 转 码 的 命令 行 工 具 ，ffprobe 是 用 于 碍 看 媒体 
文件 头 信息 的 工具 ，ffplay 则 是 用 于 播放 媒体 文件 的 工具 。 


ON be = = 
J 工 只 。 


1.ffprobe 
首先 用 ffprobe 查 看 一 个 首 频 的 文件 : 





ffprobe ~/Desktop/32037.mp3 








键入 上 述 命 令 之 后 ， 先 看 如 下 这 行 信 息 : 





Duration: 00:05:14.83, start: 0.000000, bitrate: 64kb/s 





这 行 信息 表明 ， 该 音频 文件 的 时 长 是 5 分 14 秒 零 830 坚 秒 ， 开 始 播放 
时 间 是 0， 整 个 媒体 文件 的 比特 率 是 64Kbits， 然 后 再 看 另外 一 行 : 





Stream#0:0 Audio: mp3, 24000Hz, stereo, si6p, 64kb/s 





这 行 信息 表明 ， 第 一 个 流 是 音频 流 ， 编 码 格 式 是 MP3 格 式 ， 采 样 率 
征 24kHz， 声 道 是 立体 声 ， 采 样 表示 格式 是 SImt16 〈short) 的 
planner 〈 平 铺 格式 ) ， 这 路 流 的 比特 率 是 64Kbits 。 


然后 再 使 用 fftprobe 碍 看 一 个 视频 的 文件 : 








ffprobe ~/Desktop/32037.mp4 





键入 上 述 命令 之 后 ， 可 以 看 到 第 一 部 分 的 信息 是 Metadata 信 息 : 





Metadata: 
major_brand: isom 
minor_version: 512 
compatible_ brands: Isomiso2avc1mp41 
encoder: Lavf55.12.100 





这 行 信息 表明 了 该 文件 的 Metadata 信 息 ， 比 如 encoder 是 
Lavf55.12.100， 其 中 Lavf 代 表 的 是 FFmpeg 输 出 的 文件 ， 后 面 的 编号 代表 
了 FFmpeg 的 版 本 代号 ， 接 下 来 的 一 行 信息 如 下 : 








Duration: 00:04:34.56 start: 0.023220，bitrate: 577kb/s 





上 面 一 行 的 内 容 表示 Duration 是 4 分 34 秒 560 毫 秒 ， 开 始 播放 的 时 间 
是 从 23ms 开 始 播放 的 ， 整 个 文件 的 比特 率 是 577Kbits， 紧 接着 再 来 看 下 
一 行 : 





Stream#0:0 (un) : Video: h264 (avc1/0x31637661) , yuv420p, 480*480, 508kb/s, 
24fps 





这 行 信 息 表示 第 一 个 stream 是 视频 流 ， 编 码 方式 是 H264 的 格式 〈 封 
装 格式 是 AVC1) ， 每 一 帧 的 数据 表示 是 YUV420P 的 格式 ， 分 辨 率 是 
480x480， 这 路 流 的 比特 率 是 508Kbiys， 帧 率 是 每 秒 钟 24 帧 (fps 是 
24) ， 紧 接着 再 来 看 下 一 行 : 





Stream#0:1 (und) : Audio: aac (LC) (mp4a/Ox6134706D) , 44100Hz, stereo, fltp, 
63kb/s 





这 行 信息 表示 第 二 个 stream 是 首 频 流 ， 编 码 方式 是 AAC (封装 格式 
是 MP4A) ， 并 且 采 用 的 Profile 是 LC 规格 ， 采 样 率 是 44100Hz， 声 道 数 
是 立体 声 ， 数 据 表示 格式 是 浮 点 型 ， 这 路 音频 流 的 比特 率 是 63Kbit/s。 


以 上 就 是 使 用 ffprobe 来 提取 音频 文件 和 馈 频 文件 头 信息 的 方式 ， 以 
> 忌 的 人 含义。 当然，ffprobe 还 有 比较 高 级 的 用 法 ， 下 面 就 来 
介绍 几 个 : 





ffprobe -Show_format 32037 ,mp4 





上 述 命令 可 以 输出 格式 信息 format_ name、 时 间 长 度 duration、 文 件 
大 小 size、 比 特 率 bit_ rate、 流 的 数目 nb_streams 等 。 





ffprobe -print_format json -Show_streams 32037 .mp4 





上 述 命令 可 以 以 JSON 格 式 的 形式 输出 具体 每 一 个 流 最 详细 的 信 
恩 ， 视 频 中 会 有 视频 的 宽 高 信息 、 是 否 有 b 帧 、 视 频 帧 的 总 数目 、 视 频 
的 编码 格式 、 显 示 比 例 、 比 特 率 等 信息 ， 音 频 中 会 有 音频 的 编码 格式 、 
表示 格式 、 声 道 数 、 时 间 长 度 、 比 特 率 、 帧 的 总 数目 等 信息 。 


显示 帧 信息 的 命令 如 下 : 




















ffprobe -show_frames sample.mp4 








查看 包 信息 的 命令 如 下 : 





ffprobe -Show_packets sample.mp4 





观 影 小 技巧 


日 常生 活 中 经 常会 接触 到 多 媒体 文件 ， 比 如 ， 在 电脑 上 利用 ffprobe 
工具 打开 一 些 国 粤 双 语 的 文件 ， 一 般 会 看 到 如 下 3 行 Stream 。 


视频 Stream: h264 yuv420P 

音频 Stream: aac 48000Hz stereo fltp 〈default) title: 粤语 

音频 Stream: aac 48000Hz stereo fltp title: 国语 
这 就 是 说 明 ， 该 媒体 文件 中 有 三 路 流 : 一 路 是 视频 流 ， 男 外 两 路 是 
音频 流 ， 默 认 播 放 的 是 粤语 的 声音 流 ， 在 大 多 数 的 播放 器 里 面 都 可 以 进 
行 音频 流 的 切换 ， 可 以 切换 到 国语 的 声音 流 进 行 观看 。 

以 上 介绍 的 基本 上 就 是 日 常 工作 中 经 常会 使 用 到 的 ffprobe 命 令 了 ， 








其 实 大 家 只 圾 要 掌握 最 重要 的 查看 指令 就 可 以 了 ， 下 面 继续 来 看 下 一 个 
命令 行 工具 ffplay。 
2.ffplay 


前 文 已 经 提 到 过 ，ffplay 是 以 FFmpeg 框 架 为 基础 ， 外 加 泻 染 音 视频 
的 库 libSDL 来 构建 的 媒体 文件 播放 占 。 它 所 依赖 的 libSDL 是 1.2 版 本 的 ， 
所 以 在 安 六 ffplay 之 前 也 要 安装 对 应 版 本 的 libSDL 作 为 其 依赖 的 组 件 。 
之 后 使 用 ffplay 就 非常 简单 了 ， 比 如 我 们 要 播放 一 个 音频 文件 : 





ffplay 32037 ,mp3 





这 时 候 会 弹出 一 个 窗口 ， 一 边 播 放 MP3 文 件 ， 一 边 将 播放 声音 的 语 
谱 图 画 到 该 窗口 上 。 针 对 该 窗口 的 操作 如 下 ， 点 击 窗口 的 任意 一 个 位 
置 ，ffplay 会 按照 点 击 的 位 置 计算 出 时 间 的 进度 ， 然 后 跳 (seek〉 到 这 个 
时 间 点 上 继续 播放 ;， 按 下 键盘 上 的 右键 会 默认 快 进 10s， 左 键 默认 后 退 
10s， 上 和 键 默认 快 进 1min， 下 键 默认 后 退 1min; ， 按 ESC 键 束 是 退出 播放 
eS 如 果 按 w 键 则 将 绘制 音频 的 波形 图 等 。 播 放 一 个 视频 的 命令 如 下 
小: 





ffplay 32037 ,mp4 


这 时 候 会 直接 在 新 弹出 的 窗口 上 播放 该 视频 ， 如 果 想 要 同时 播放 多 
个 文件 ， 那 么 只 需要 在 多 个 命令 行 下 同时 执行 ftplay 束 可 以 了 ， 在 对 比 
多 个 视频 质量 的 时 候 这 是 一 个 操作 技巧 ， 此 外 ， 如 果 按 s 键 则 可 以 进入 
frame-step 模 式 ， 即 按 s 键 一 次 就 会 播放 下 一 帧 图 像 ， 这 在 观察 茶 些 视频 
内 部 的 帧 内 容 时 也 是 常用 的 技巧 。 


业界 内 开源 的 jjkPlayer 其 实 就 是 基于 ffplay 进 行 改造 的 播放 上 器， 当然 
其 做 了 硬件 解码 以 及 很 多 兼容 性 的 工作 。jjkPlayer 是 一 款 非常 优秀 的 播 
放 器 ， 作 为 开发 者 的 我 们 需要 很 多 优秀 的 开源 项 目 。 所 以 在 这 里 笔者 呼 
ae 开源 出 自己 的 部 分 代码 ， 以 提高 所 在 领域 的 整体 水 











更 多 的 ffplay 命 令 介绍 如 下 : 


ffplay 32037.mp4 -loop 10 





上 述 命令 代表 播放 视频 结束 之 后 会 从 头 再 次 播放 ， 共 循环 播放 10 
次 。 还 记得 前 文中 提 到 过 的 两 路 流 吗 ? ffplay 也 做 了 这 方面 的 适 配 ， 也 
就 是 说 在 ffplay 中 其 实 也 可 以 指定 使 用 哪 一 路 音频 流 或 者 视频 流 ， 命 令 
如 下 : 





ffplay 大 话 西游 .mkv -ast 1 





上 述 命令 表示 播放 视频 中 的 第 一 路 音频 流 ， 如 条 参数 ast 后 面 跟 的 是 
2， 那 么 就 播放 第 二 路 音频 流 ， 如 果 没 有 第 二 路 音频 流 的 话 ， 就 会 间 
音 ， 同 样 也 可 以 设置 参数 vst， 比 如 : 





ffplay 大 话 西游 .mkv -vst 1 





上 述 命令 表示 播放 视频 中 的 第 一 路 视频 流 ， 如 条 参数 vst 后 面 跟 的 是 
2， 那 么 环 播 放 第 二 路 视频 流 ， 但 是 如 琳 没 有 第 二 路 视频 流 ， 束 会 是 黑 
屏 即 什么 都 不 显示 。 


接 下 来 介绍 开发 工作 中 第 用 的 几 个 命令 ， 这 些 命令 在 工作 中 debug 
的 时 候 非常 有 用 。 表 先 用 ffplay 播 放 宰 数据， 无 论 是 音频 的 pcm 文 件 还 是 
视频 帧 原始 格式 表示 的 数据 〈YUV420P 或 者 rgba) 。 下 面 先 来 看 看 音频 
pcm 文 件 的 播放 命令 : 





ffplay song.pcm -f si6le -channels 2 -ar 44100 





仅 键入 上 述 这 行 命令 其 实 就 可 以 正常 播放 song.pcm 了， 当然 ， 前 提 
是 格式 〈-f) 、 声 道 数 〈-channels) 、 采 样 率 〈-ar) 必须 设置 正确 ， 如 
果 其 中 任何 一 项 参数 设置 不 正确 ， 都 不 会 得 到 正常 的 播放 结果 。 第 1 章 
在 讲 音频 的 基础 概念 时 已 经 提 到 过 ，WAV 格 式 的 文件 称 为 无 压缩 的 格 
式 ， 其 实 就 是 在 PCM 的 头 部 添加 44 个 字 节 ， 用 于 标识 这 个 PCM 的 采样 
表示 格式 、 声 道 数 、 采 样 率 等 信息 ， 对 于 WAV 格 式 首 频 文件 ，ffplay 肯 
定 可 以 直接 播放 ， 但 是 若 让 ffplay 播 放 PCM 裸 数据 的 话 ， 只 要 为 其 提供 
上 述 三 个 主要 的 信息 ， 那 么 它 就 可 以 正确 地 播放 了 。 


然后 再 来 看 一 帧 视频 帧 的 播放 ， 首 先是 YUV420P 格 式 的 视频 帧 : 





ffplay -f rawvideo -pixel format yuv420p -s 480*480 texture.yuv 








其 实 对 于 一 帧 视频 帧 ， 或 者 更 直接 来 说 一 张 PNG 或 者 JPEG 的 图 
片 ， 直 接 用 ffplay 是 可 以 显示 或 播放 的 ， 当 然 PNG 或 者 JPEG 都 会 在 其 头 
部 信息 里 面 指明 这 张 图 片 的 宽 高 以 及 格式 表示 。 知 想 让 ffplay 显 示 一 张 
YUV 的 原始 数据 表示 的 图 片 ， 那 么 需要 告诉 ffplay 一 些 重要 的 信息 ， 其 
中 包括 格式 (-f rawvideo 代 表 原 始 格 式 ) 、 表 示 格 式 (-pixel_format 
yuv420p) 、 宽 高 (-s ”480*480) 。 对 于 RGB 表示 的 图 像 ， 其 实 是 一 样 
的 ， 命 令 如 下 : 





ffplay -f rawvideo -pixel format rgb24 -s 480*480 texture.rgb 





十 述 代码 古 播 用 rgb 的 原 如 数据 ， 当 然 还 需要 指明 前 面 提 到 的 三 项 
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另外 ， 对 于 视频 播放 器 ， 不 得 不 提 的 一 个 问题 束 是 音 男 同步 ， 在 
ffplay 中 音 男 同 步 的 实现 方式 其 实 有 三 种 ， 分 别 是 : 以 首 频 为 主 时 间 轴 
作为 同步 源 ， 以 视频 为 主 时 间 轴 作为 同步 源 ， 以 外 部 时 钟 为 主 时 间 轴 作 
为 同步 源 。 下 面 就 以 音频 为 主 时 间 轴 来 作为 同步 源 来 作为 案例 进行 讲 
解 ， 这 也 是 后 面 划 市 中 完成 视频 播放 器 项 目 时 要 使 用 到 的 对 齐 策略 ， 并 
且 在 ffplay 中 默认 的 对 齐 方 式 也 是 以 音频 为 基准 进行 对 齐 的 ， 那 么 以 首 
频 作为 对 齐 基 准 是 如 何 实现 的 呢 ? 


首先 要 声明 的 是 ， 播 放 器 接收 到 的 视频 帧 或 者 音频 帧 ， 内 部 都 会 有 
时 间 改 “PTS 时钟 〉 来 标识 它 实 际 应 该 在 什么 时 刻 进行 展示 。 实 际 的 对 
齐 策 略 如 下 : 比较 视频 当前 的 播放 时 间 和 音频 当前 的 播放 时 间 ， 如 果 视 
频 播放 过 快 ， 则 通过 加 大 延迟 或 者 重复 播放 来 降低 视频 播放 速度 如 果 
视频 播放 慢 了 ， 则 通过 减 小 延迟 或 者 去 帧 来 奶 赶 音频 播放 的 时 间 点 。 关 
键 就 在 于 音 视 频 时 间 的 比较 以 及 延迟 的 计算 ， 当 然 在 比较 的 过 程 中 会 设 
置 一 个 国 值 “Threshold) ， 奋 超过 预 设 的 阐 值 就 应 该 做 调整 ( 丢 帧 泻 染 
或 者 重复 泻 染 ) ， 这 就 是 整个 对 齐 策 略 。 


对 于 fftplay 可 以 明确 指明 使 用 的 到 底 是 哪 一 种 具体 的 对 齐 方式 ， 比 
中 : 





























ffplay 32037.mp4 -sync audio 


上 述 命令 显 式 地 指定 了 ftplay 使 用 音频 为 基准 进行 音 视 频 同步 ， 用 
来 播放 文件 32037.mp4， 当 然 这 也 是 ffplay 的 默认 设置 《就 是 写 与 不 写 都 
一 样 ) 。 


ffplay 32037 .mp4 -Sync video 


上 述 命令 显 式 地 指定 了 使 用 以 视频 为 基准 进行 音 视 频 同 步 的 方式 播 
放 视 频 文 件 。 


ffplay 32037 ,mp4 -Sync ext 


上 述 命令 显 式 地 指定 了 使 用 外 部 时 钟 作 为 基准 进行 音 视频 同步 的 方 
式 ， 用 来 播放 视频 文件 。 


大 家 可 以 分 别 使 用 这 三 种 方式 进行 播放 ， 答 试 痢 去 听 一 听 ， 做 一 些 
快 进 操作 或 者 直接 跳 (seek〉 到 茶 个 位 置 的 操作 ， 观 察 一 下 不 同 的 对 齐 
东 略 对 最 终 的 播放 具体 会 造成 什么 样 的 影响 。 


3.ffmpeg 


fftmpeg 其 实 是 这 三 个 命令 行 工 具 里 最 强大 的 一 个 工具 ， 如 果 说 
ffprobe 是 用 于 探测 媒体 文件 的 格式 以 及 详细 信息 ，ffplay 是 一 个 播放 媒 
体 文件 的 工具 ， 那 么 fftmpeg 就 是 强大 的 媒体 文件 转换 工具 。 它 可 以 转换 
任何 格式 的 媒体 文件 ， 并 且 还 可 以 用 自己 的 AudioFilter 愉 及 VideoFilter 
进行 处 理 和 编辑 ， 总 之 一 句 话 ， 有 了 它 ， 进 行 离线 处 理 视频 时 可 以 做 任 
0 

柔 例 。 


(1) 通用 参数 
:-f fmt: 指定 格式 (音频 或 者 视频 格式 ) 。 


-i filename: 指定 输入 文件 名 ， 在 Linux 下 当然 也 能 指定 : 0.0〈 屏 
幕 录制 ) 或 摄像 头 。 


“-Y : 履 善 己 有 文件 o 

















'-t duration: 指定 时 长 。 
-fs limit_size: 设置 文件 大 小 的 上 限 。 


-SS time_off: 从 指定 的 时 间 (单位 为 秒 〉 开始 ， 也 文 持 [-]hh: 
mm: ss[.xxx] 的 格式 。 


-Te: 代表 按照 帧 紊 肥 送 ， 尤 其 在 作为 推 流 工 其 的 时 候 一 定 要 加 入 
该 参数 ， 人 否则 ftmpeg 会 按照 最 高 速率 癌 流 媒体 服务 硕 不 停 地 发 送 数据 。 


-map: 指定 输出 文件 的 流 映 射 关 系 。 例 如 :“-map 1: 0-map 1: 
1” 要 求 将 第 二 个 输入 文件 的 第 一 个 流 和 第 二 个 流 写 入 输出 文件 。 如 果 没 
有 -map 选 项 ， 则 ffmpeg 采 用 默认 的 映射 关系 。 


(2) 视频 参数 


.-b: 指定 比特 率 (bits) ，fftmpeg 是 自动 使 用 VBR 的 ， 若 指定 了 该 
参数 则 使 用 平均 比特 率 。 


-bitexact: 使 用 标准 比特 率 。 
-Vvb: 指定 视频 比特 率 (bits/s) 。 





-rrate: 帧 速率 (fps) 。 
-Ss size: 指定 分 辨 率 (320x240) 。 


.-aspect aspect: 设置 视频 长 宽 比 (4: 3，16: 9 或 1.3333， 
L7777 Ys 


-Croptop size: 设置 顶部 切除 尺寸 (in pixels) 。 
-Cropbottom size: 设置 底部 切除 尺寸 (in pixels) 。 
-Cropleft size: 设置 左 切 除 尺 寸 (in pixels) 。 
-Cropright size: 设置 右 切 除 尺寸 (in pixels) 。 
-padtop size: 设置 顶部 补 齐 尺寸 (in pixels) 。 


-padbottom size: 底 补 齐 〈in pixels) 。 

-padleft size: 左 补 齐 (in pixels) 。 

-padright size: 右 补 齐 (in pixels) 。 

-padcolor color: 补 齐 带 颜 色 (000000-FFFFFF)。 
-vn: 取消 视频 的 输出 。 


-vcodec codec: 强制 使 用 codec 编 解码 方式 〈'"copy' 代 表 不 进行 重新 
编码 ) 。 


(3) 音频 参数 
-ab: 设置 比特 率 〈 单 位 为 biys， 老 版 的 单位 可 能 是 Kbiys) ， 对 于 


MP3 格 式 ， 知 要 听 到 较 高 品质 的 声音 则 建议 设置 为 160Kbits《〈 单 声 道 则 
设置 为 80Kbit/s) 以 上 。 





-aq quality: 设置 音频 质量 《指定 编码) 。 

-ar rate: 设置 音频 采样 率 〈 单 位 为 Hz) 。 

-ac channels: 设置 声 道 数 ，1 就 是 单 声 道 ，2 就 是 立体 声 。 
-an: 取消 音频 轨 。 


-acodec ”codec: 指定 音频 编码 ('copy' 代 表 不 做 音频 转 码 ， 直 接 复 


-Vol volume: 设置 录制 音量 大 小 (默认 为 256) < 百分比 >。 

以 上 束 是 日 党 开发 中 经 常用 到 的 首 视 频 参数 以 及 通用 参数 ， 各 只 介 
绍 这 些 参 数 ， 读者 肯定 会 觉得 比较 迷 荡 ， 下 面 束 结合 日 常 开发 中 过 到 的 
场景 逐个 给 出 具体 的 实例 来 实践 一 下 。 


1) 列 出 ffmpeg 文 持 的 所 有 格式 : 











ffmpeg -formats 





2) 甬 切 一 段 媒体 文件 ， 可 以 是 音频 或 者 视频 文件 : 





ffmpeg -i Input,mp4 -ss 00:00:50.0 -codec copy -t 20 output .mp4 





表示 将 文件 nput.mp4 从 第 50s 开 始 剪 切 20s 的 时 间 ， 和 输出 到 文件 
output.mp4 中 ， 其 中 -ss 指定 偏 移 时 间 (time Offset) ，-t 指 定 的 时 长 
(duration) 。 


3) 如 果 在 手机 中 录制 了 一 个 时 间 比 较 长 的 视频 无 法 分 至 到 微 信 
中 ， 那 么 可 以 使 用 ftmpeg 将 该 视频 文件 切割 为 多 个 文件 : 





ffmpeg -i input.mp4 -t 00:00:50 -c copy small-1.mp4 -ss 00:00:50 - 
codec copy 
small-2.mp4 





4) 提取 一 个 视频 文件 中 的 音频 文件 : 





ffmpeg -i Input,mp4 -vn -acodec copy output ,m4a 





5) 使 一 个 视频 中 的 音频 静音 ， 即 只 保留 视频 : 





ffmpeg -i input,mp4 -an -vcodec copy output ,mp4 





6) 从 MP4 文 件 中 抽取 视频 流 导 出 为 裸 H264 数 据 : 





ffmpeg -i output.mp4 -an -vcodec copy -bsf:v h264 mp4toannexb output.h264 





注意 ， 上 述 指令 里 不 使 用 音频 数据 〈-an) ， 视 频数 据 使 用 
mp4toannexb 这 个 bitstream filter 来 转换 为 原始 的 H264 数 据 ， 在 后 续 的 API 
章节 中 也 会 频繁 使 用 到 该 bitstream filter， 在 前 面 的 章节 中 也 曾 提 到 过 同 
一 编码 会 有 不 同 的 封装 格式 。 


7) 使 用 AAC 音 频数 据 和 H264 的 视频 生成 MP4 文 件 : 





ffmpeg -i test.aac -i test.h264 -acodec copy -bsf:a aac adtstoasc - 
vcodec copy -f 
mp4 output.mp4 





上 述 代 码 中 使 用 了 一 个 名 为 aac_adtstoasc 的 bitstream filter，AAC 格 
式 也 有 两 种 封装 格式 ， 前 面 的 章节 中 也 曾 提 到 过 ， 而 且 在 后 续 的 章节 中 
也 会 继续 使 用 API 调 用 该 bitstream filter。 


8) 对 首 频 文件 的 编码 格式 做 转换 : 





ffmpeg -i input.wav -acodec libfdk aac output ,aac 





9) 从 WAV 音 频 文 件 中 导出 PCM 裸 数据 : 





ffmpeg -i input,wav -acodec pcm_ si6le -f si6le output .pcm 





这 样 束 可 以 导出 用 16 个 bit 来 表示 一 个 sample 的 PCM 数 据 了 ， 并 且 每 
个 sample 的 字 节 排列 顺序 都 是 小 尾 端 表示 的 格式 ， 声 道 数 和 采样 率 使 用 
的 都 是 原始 WAV 文 件 的 声 道 数 和 采样 率 的 PCM 数 据 。 


10) 重新 编码 视频 文件 ， 复 制 音 频 流 ， 同 时 封装 到 MP4 格 式 的 文件 








ffmpeg -i Input,flv -vcodec libx264 -acodec copy output ,mp4 





11) 将 一 个 MP4 格 式 的 视频 转换 成 为 gif 格式 的 动 图 : 





ffmpeg -i input,mp4 -vf Scale=100:-1 -t 5 -r 10 image.gif 





上 述 代 码 按 照 分 辨 比例 不 动 宽 度 改 为 100( 使 用 VideoFilter 的 
scaleFilter〉， 帧 率 改 为 10(-r) ， 只 处 理 前 5 秒 钟 (-t) 的 视频 ， 生 成 
gif。 


12) 将 一 个 视频 的 画面 部 分 生成 图 片 ， 比 如 要 分 析 一 个 视频 里 面 的 
每 一 帧 都 是 什么 内 容 的 时 候 ， 可 能 就 需要 用 到 这 个 命令 了 





ffmpeg -i output.mp4 -r 0.25 frames_%04d .png 





上 述 命 令 每 4 秒 钟 截取 一 帧 视频 画面 生成 一 张 图 片 ， 生 成 的 图 片 从 
frames_0001.png 开 始 一 直 递增 下 去 。 


13) 使 用 一 组 图 片 可 以 组 成 一 个 gf， 如 果 你 连 拍 了 一 组 照片 ， 就 可 
以 用 下 面 这 行 命令 生成 一 个 gif: 





ffmpeg -i frames %04d.png -r 5 output.gif 





14) 使 用 音量 效果 需 ， 可 以 改变 一 个 音频 媒体 文件 中 的 音量 : 





ffmpeg -i input,wav -af “volume=0.5”′ output ,wav 





上 述 命令 是 将 input.wav 中 的 声音 减 小 一 半 ， 输 出 到 output.wav 文 件 
0 或 者 放 到 一 些 音 频 编辑 软件 中 直接 观看 波形 幅 


15) 淡 入 效果 需 的 使 用 : 





ffmpeg -i input,wav -filter_complex afade=t=in:ss=0:d=5 output.wav 





上 述 命 令 可 以 将 input.wav 文 件 中 的 前 5s 做 一 个 淡 入 效果 ， 输 出 到 
output.wav 中 ， 可 以 将 处 理 之 前 和 处 理 之 后 的 文件 拖 到 Audacity 音 频 编 辑 
软件 中 查看 波形 图 。 


16) 淡出 效果 器 的 使 用 : 








ffmpeg -i input.wav -filter_complex afade=t=out:st=200:d=5 output.wav 





上 述 命 令 可 以 将 input.wav 文 件 从 200s 开 始 ， 做 5s 的 淡出 效果 ， 并 放 
到 output.wav 文 件 中 。 


17) 将 两 路 声 首 进 行 合 并 ， 比 如 要 给 一 段 声 首 加 上 背景 首 乐 : 





ffmpeg -i vocal.wav -i accompany.wav -filter_complex 
amix=inputs=2:duration=shortest output .wav 





上 述 命令 是 将 vocal.wav 和 accompany.wav 两 个 文件 进行 mix， 按 照 时 
间 长 度 较 短 的 音频 文件 的 时 间 长 上 度 作为 最 终 输 出 的 output.wav 的 时 间 长 
度 。 











18) 对 声音 进行 变速 但 不 变调 效果 鼎 的 使 用 : 





ffmpeg -i vocal.wav -filter_complex atempo=0.5 output.wav 








上 述 命令 是 将 vocal.wav 按 照 0.5 倍 的 速度 进行 处 理 生 成 output.wav， 
时 间 长 度 将 会 变 为 输入 的 2 倍 。 但 是 音 高 是 不 变 的 ， 这 就 是 大 家 常 说 的 
变速 不 变调 。 


19) 为 视频 增加 水 印 效果 : 




















ffmpeg -i input.mp4 -i changba_icon.png -filter_complex 
'[O:v][1i:vljoverlay=main_w-overlay_w-10:10:1[out]' 
map '[out]' output.mp4 





上 述 命令 包含 了 几 个 内 置 参数 ，main_w 代 表 主 视频 宽度 ， 
overlay_w 代 表 水 印 宽 度 ，main_h 代 表 主 视频 高 度 ，overlay_h 代 表 水 印 
高 度 o 


20) 视频 提 腕 效果 器 的 使 用 : 








ffmpeg -i input,flv -c:v libx264 -b:v 800k -c:a libfdk_aac 
vf eq=brightness=0.25 
-f mp4 output.mp4 





提 亮 参数 是 brightness， 取 值 范 围 是 从 -1.0 到 1.0， 默 认 值 是 0。 


21) 为 视频 增加 对 比 度 效果 : 





ffmpeg -i input,flv -c:v libx264 -b:v 800Kk -Cc:a libfdk_aac 
vf eq=contrast=1.5 -f 
mp4 output.mp4 





对 比 度 参 数 是 contrast， 取 值 范围 是 从 -2.0 到 2.0， 默 认 值 是 1.0。 
22) 视频 旋转 效果 器 的 使 用 : 





ffmpeg -i input.mp4 -vf "transpose=1" -b:v 600k output ,mp4 





23) 视频 裁 前 效果 器 的 使 用 : 





ffmpeg -i input.mp4 -an -vf "crop=240:480:120:0" -vcodec libx264 
b:v 600k output ,mp4 





24) 将 一 张 RGBA 格 式 表示 的 数据 转换 为 JPEG 格 式 的 图 片 : 





ffmpeg -f rawvideo -pix_fmt rgba -s 480*480 -i texture.rgb -f image2 - 
vcodec mjpeg 
output.jpg 





25) 将 一 个 YUV 格 式 表示 的 数据 转换 为 JPEG 格 式 的 图 片 : 





ffmpeg -f rawvideo -pix_ fmt yuv420p -s 480*480 -i texture.yuv -f image2 - 
vcodec mjpeg 
output.jpg 





26) 将 一 段 视频 推送 到 流 媒 体 服务 右上 : 





ffmpeg -re -i Input,mp4 -acodec copy -vcodec copy -f flv rtmp://xxx 





上 述 代码 中 ，rtmp: /xxx 代 表 流 媒体 服务 器 的 地 址 ， 加 上 -re 参数 代 
表 将 实际 媒体 文件 的 播放 速度 作为 推 流速 度 进行 推送 。 


27) 将 流 媒 体 服 务 器 上 的 流 dump 到 本 地 : 





ffmpeg -i http://xxx/xxx.flv -acodec copy -vcodec copy -f flv output .flv 





上 述 代 码 中 ，http://xxx/xxx.flv 代 表 一 个 可 以 访问 的 视频 网 络 地 址 ， 
可 按照 复制 视频 流 格 式 和 音频 流 格式 的 方式 ， 将 文件 下 载 到 本 地 的 


output.flv 媒 体 文 件 中 。 


28) 将 两 个 音频 文件 以 两 路 流 的 形式 封闭 到 一 个 文件 中 ， 比 如 在 K 
歌 的 应 用 场景 中 ， 原 伴唱 实时 切换 的 场景 下 ， 可 以 使 用 一 个 文件 包含 两 
路 流 ， 一 路 是 伴奏 流 ， 男 外 一 路 是 原 唱 流 : 











ffmpeg -i 131.mp3 -i 134.mp3 -map 0:a -cia:0 libfdk aac -b:a:0 96k - 
map 1:a -c:a:1 


libfdk_aac -b:a:1 64k -vn -f mp4 output.m4a 





其 实 ，FFmpeg 的 命令 工具 随意 组 合 的 话 会 有 很 多 种 ， 这 里 只 列举 
了 一 部 分 ， 如 果 大 家 和 弄 清楚 了 FFmpeg 能 做 什么 ， 那 么 具体 的 使 用 就 一 
目 了 然 了 ， 只 要 是 FFmpeg 框 染 能 够 实现 的 功能 ， 那 么 FFmpeg 命 令 行 工 
具 就 能 将 其 提供 出 来 了 了 。 下 面 将 会 介绍 如 何 从 API 层 面 调用 FFmpeg 来 完 
成 日 第 的 开发 工作 。 





3.2 FFmpeg API 的 介绍 与 使 用 
首先 ， 需 要 统一 下 术语 ， 有 具体 如 下 。 
.容器 / 文件 (Conainer/File〉: 即 特定 格式 的 多 媒体 文件 ， 比 如 


MP4、flv、mov 等 。 


:媒体 流 (Stream) : 表示 时 间 轴 上 的 一 段 连续 数据 ， 如 一 段 声 音 数 
据 、 一 段 视 频数 据 或 一 段 字 幕 数据 ， 可 以 是 压缩 的 ， 也 可 以 是 非 压 缩 
的 ， 压 缩 的 数据 需要 关联 特定 的 编 解 码 器 。 


.数据 帧 / 数据 包 (Frame/Packet) : 通常 ， 一 个 媒体 流 是 由 大 量 的 
数据 帧 组 成 的 ， 对 于 压缩 数据 ， 帧 对 应 着 编 解 码 器 的 最 小 处 理 单元 ， 分 
属于 不 同 媒 体 流 的 数据 帧 交错 存储 于 容器 之 中 。 


- 纺 解 码 器 : 编 解 公 器 是 以 帧 为 单位 实现 压缩 数据 和 原始 数据 之 间 
的 相互 转换 的 。 


前 面 已 经 介绍 过 FFmpeg 的 各 个 库 以 及 每 个 库 所 承担 的 职责 ， 本 市 
将 要 讨论 的 是 ， 以 写 代 码 的 方式 调用 FFmpeg 的 API 完 成 一 些 媒体 文件 的 
首先 会 介绍 最 重要 的 结构 体 ， 然 后 再 以 实例 的 方式 完成 两 个 实 
践 。 


前 面 所 介绍 的 术语 ， 其 实 就 是 FFmpeg 中 抽象 出 来 的 概念 ， 我 们 不 
得 不 承认 ，FFmpeg 的 功能 非常 强大 ， 同 时 我 们 也 得 承认 FFmpeg 的 代码 
设计 也 是 非常 优秀 的 。 其 中 AVFormatContext 就 是 对 容器 或 者 说 媒体 文 
件 层次 的 一 个 抽象 ， 该 文件 中 (或 者 说 在 这 个 容器 里 面 ) 包含 了 多 路 流 
(音频 流 、 视 频 流 、 字 幕 流 等 ) ， 对 流 的 抽象 就 是 AVStream; 在 每 一 
路 流 中 都 会 描述 这 路 流 的 编码 格式 ， 对 编 解 码 格 式 以 及 编 和 解码 器 的 抽象 
束 是 AVCodecContext 与 AVCodec; 对 于 编码 器 或 者 解码 器 的 输入 输出 部 
分 ， 也 就 是 压缩 数据 以 及 原始 数据 的 抽象 就 是 AVPacket 与 AVFrame。 


前 面 是 从 多 媒体 概念 的 角度 上 目 外 同 内 地 对 FFmpeg 进 行 了 齐 析 ， 
这 也 正好 是 FFmpeg 抽 象 的 层次 ， 非 党 易于 理解 。 当 然 除了 编 解 码 之 
外 ， 对 于 音 视频 的 处 理 肯定 是 针对 于 原始 数据 的 处 理 ， 也 就 是 针对 于 
AVFrame 的 处 理 ， 使 用 的 就 是 AVFilter， 这 一 点 也 非常 好 理解 。 





























至 此 ，FFmpeg 中 最 重要 的 几 个 模块 都 已 经 介绍 完毕 了 ， 下 面 来 有 具 
体 看 一 个 解码 的 实例 ， 访 实例 实现 的 功 和 非常 单一， 就 是 把 一 个 视频 文 
a 最 后 将 会 使 用 前 面 
0 站 绍 的 ffplay 去 验证 播放 这 两 个 文件 ， 以 查看 是 否 ;可 以 得 到 正确 


首先 ， 要 使 用 FFmpeg 就 必须 要 引用 它 的 头 文 件 ， 以 及 在 链接 阶段 
使 用 它 的 静态 库 文 件 ， 关于 头 文件 和 静态 库 文 件 的 生成 ， I ae 
0 这 里 直接 将 文件 (include 文 件 夹 与 libfftmpeg.a 静 态 库 文件 ) 拿 过 
v 用 。 


4, 引用 头 文 件 
如 果 是 在 iOS 下 ， 那 么 可 直接 以 下 面 这 种 方式 引用 头 文件 : 














#include "libavformat/avformat.h" 
#include "libswscale/swscale.h" 
#include "libswresample/swresample.h" 
#include "libavutil/pixdesc.h" 








0 模 下 ， 那 么 可 直接 以 下 面 这 种 方式 引用 头 
文件 : 





extern "C" { 
#include "3rdparty/ffmpeg/include/libavformat/avformat.h" 
#include "3rdparty/ffmpeg/include/libswscale/swscale.h" 
#include "3rdparty/ffmpeg/include/libswresample/swresample.h" 
#include "3rdparty/ffmpeg/include/libavutil/pixdesc.h" 


} 





extern“C” 的 解释 


作为 一 种 面 癌 对象 的 语言 ，C++ 文 持 函 数 的 重 载 ， 而 面 癌 过 程 的 C 
语言 是 不 文 持 函 数 重 载 的 。 同 一 个 函数 在 C++ 中 编译 后 与 其 在 C 中 编译 
后 ， 在 符号 表 中 的 签名 是 不 同 的， 假如 对 于 同一 个 函数 : 





void decode(float position, float duration) 








在 C 语 言 中 编译 出 来 的 签名 是 _decoder， 而 在 C++ 语言 中 ， 一 般 编译 


器 的 生成 则 类 似 于 _decode _ float float。 虽 然 在 编译 阶段 是 没有 问题 的 ， 
但 是 在 链接 阶段 ， 如 果 不 加 exterm“C” 关 键 字 的 话 ， 那 么 将 会 链接 
_decoder_float_float 这 个 方法 签名 ; 而 如 果 加 了 extern“C” 关 键 字 的 话 ， 
那么 寻找 的 方法 签名 就 是 _decoder。 而 FFmpeg 就 是 C 语 言 书 写 的 ， 编 译 
FFmpeg 的 时 候 所 产生 的 方法 签名 都 是 C 语 言 类 型 的 签名 ， 所 以 在 C++ 中 
引用 FFmpeg 必 须要 加 extern“C” 关 键 字 。 


可 以 看 到 ， 引 用 头 文件 的 方式 是 不 同 的 ， 因 为 每 个 平台 配置 的 
Header Search Path 是 不 一 样 的 ， 在 iOS 的 IDE Xcode 开发 中 ， 可 以 在 工程 
文件 的 配置 中 修改 Header Search Path; 在 Android 的 底层 开发 中 ， 可 以 
配置 makefile 文 件 中 的 内 置 变量 LOCAL_C_INCLUDES 来 指定 头 文 件 的 
搜索 路 径 ， 当 然 如 果 要 在 跨 平 台 (Android 平 台 和 iOS 平 台 ) 的 模块 《以 
C++ 语言 编写 ) 中 引用 FFmpeg 的 头 文件 ， 则 需要 编写 一 个 
platform_4 _ffmpeg.h， 并 在 其 中 根据 各 个 平台 预定 义 的 宏 去 编译 不 同 的 
引用 方 未 。， 氏 但 如 下 ， 




















#ifdef _ ANDROID _ 
extern "C" { 
#include "3rdparty/ffmpeg/include/libavformat/avformat.h" 
#include "3rdparty/ffmpeg/include/libswscale/swscale.h" 
#include "3rdparty/ffmpeg/include/libswresample/swresample.h" 
#include "3rdparty/ffmpeg/include/libavutil/pixdesc.h" 


} 
#elif defined( APPLE ) // i0S 或 0S X 
extern "C" { 
#include "libavformat/avformat.h" 
#include "libswscale/swscale.h" 
#include "libswresample/swresample.h" 
#include "libavutil/pixdesc.h" 


} 
#endif 





2. 注 册 协 议 、 格 陈 与 编 解 码 器 


使 用 FFmpeg 的 API， 首 先 要 调用 FFmpeg 的 注册 协议 、 格 式 与 编 解 
码 器 的 方法 ， 确 保 所 有 的 格式 与 编 解码 器 都 被 注册 到 了 FFmpeg 框 架 
中 ， 当 然 如 果 需 要 用 到 网 络 的 操作 ， 那 么 也 应 该 将 网 络 协议 部 分 注册 到 
FFmpeg 框 架 ， 以 便于 后 续 再 去 查找 对 应 的 格式 。 代 码 如 下 : 





avformat_network_init(); 
av_register_all(); 








文档 中 还 有 一 个 方法 是 avcodec_register_all () ， 其 用 于 将 所 有 编 
解码 器 注册 到 FFmpeg 框 架 中 ， 但 是 av_register_all 方 法 内 部 已 经 调用 了 
avcodec_register_all 方 法 ， 所 以 其 实 只 需要 调用 av_register_all 束 可 以 
Ts 


3. 打 开 媒 体 文 件 源 ， 并 设置 超时 回调 


注册 了 格式 以 及 编 解 码 器 之 后 ， 接 下 来 就 应 该 打开 对 应 的 媒体 文件 
了 ， 当 然 该 文件 既 可 能 是 本 地 磁盘 的 文件 ， 也 可 能 是 网 络 媒 体 资 源 的 一 
个 链接 ， 如 果 是 网 络 链接 ， 则 会 涉及 不 同 的 协议 ， 比 如 RTMP、HTTP 
等 协议 的 视频 源 。 打 开 媒 体 资 源 以 及 设置 超时 回调 的 代码 如 下 : 





AVFormatContext *formatCtx = avformat_alloc_context(); 

AVIOInterruptCB int_cb = {interrupt_callback, (__bridge void *)(self)}; 
formatCctx->interrupt_callback = int_cb; 

avformat_open_input(formatctx, path, NULL, NULL); 

avformat_find_stream info(formatctx, NULL); 





4. 寻 找 各 个 流 ， 并 且 打 开 对 应 的 解码 器 


上 一 步 中 已 打开 了 媒体 文件 ， 相 当 于 打开 了 一 根 电 线 ， 这 根 电线 里 
面 其 实 还 有 一 条 红色 的 线 和 一 条 监 色 的 线 ， 这 就 和 媒体 文件 中 的 流 非 常 
类 似 了 ， 红 色 的 线 代 表 音 频 流 ， 赣 色 的 线 代 表 视 频 流 。 所 以 这 一 步 我 们 
就 要 寻找 出 各 个 流 ， 然 后 找到 流 中 对 应 的 解码 器 ， 并 且 打 开 它 。 


寻找 音 视频 流 : 





for(int i = 0; i < formatCtx->nb_streams; I++) { 
AVStream* stream = formatCctx->streams[i]; 
if(AVMEDIA_TYPE_VIDEO == stream->codec->codec type) { 
// 视频 流 
VideoStreamIndex = i; 
} else if(AVMEDIA TYPE_ AUDIO == stream->codec->codec type ){ 
// 音频 流 
audioStreamIndex = i，; 





打开 音频 流 解 码 需 : 





AVCodecContext * audioCodecCtx = audioStream->codec 
AVCodec *codec = avcodec find decoder(audioCodecCtx ->codec id); 


if(!codec)t{ 


// 找 不 到 对 应 的 音频 解码 器 


int openCodecErrCode = 0; 

if ((openCodecErrCode = avcodec open2(codecCtx, codec, NULL)) < 0){ 
// 打开 音频 解码 器 失败 

} 








打开 视频 流 解 码 絮 : 





AVCodecContext *videoCodecCtx = videoStream->codec; 
AVCodec *codec = avcodec find decoder(videoCodecCtx->codec_ id); 
if(!codec) 


{ 
// 找 不 到 对 应 的 视频 解码 器 


int openCodecErrCode = 0; 

if ((openCodecErrCode = avcodec open2(codecCtx, codec, NULL)) < 0) { 
// 打开 视频 解码 器 失败 

} 








5. 初 始 化 解码 后 数据 的 结构 体 


知道 了 音 视 频 解 码 需 的 信息 之 后 ， 下 面 需要 分 配 出 解码 之 后 的 数据 
所 存放 的 内 存 空 间 ， 以 及 进行 格式 转换 需要 用 到 的 对 象 。 


构建 音频 的 格式 转换 对 象 以 及 音频 解码 后 数据 存放 的 对 象 : 








SwrContext *swrContext = NULL; 
if(audioCodecCtx->sample _ fmt ! = AV_SAMPLE_ FMT_ S16) { 
// 如 果 不 是 我 们 需要 的 数据 格式 
swrContext = Swr_alloc_set_opts(NULL， 
outputChannel, AV_SAMPLE_FMT_S16, outSampleRate, 
in_ch_layout, in_sample_fmt, in_sample_rate, ©0, NULL); 
if(!swrContext || swr_init(swrContext)) { 
if(swrContext) { 
swr_free(&swrContext ); 





audioFrame = avcodec alloc frame(); 





构建 视频 的 格式 转换 对 象 以 及 视频 解码 后 数据 存放 的 对 象 : 





AVPicture picture 

bool pictureValid = avpicture alloc(&picture, 
PIX_FMT_YUV420P, 
videoCodecCtx->width, 
videoCodecCtx->height) == 0; 


if (!pictureVvValid){ 
// 分 配 失败 
return false; 
} 
swsContext = sws_getCachedContext(swsContext, 
videoCodecCtx->width, 
videoCodecctx->height, 
videoCodecCtx->pix_fmt, 
videoCodecCtx->width, 
videoCodeccCtx->height, 
PIX_FMT_YUV420P, 
SWS_FAST_BILINEAR, 
NULL, NULL, NULL); 
videoFrame = avcodec alloc frame(); 





6. 读 取 流 内 容 并 且 解 码 


打开 了 解码 强 之 后 ， 束 可 以 读 取 一 部 分 流 中 的 数据 (压缩 数据 )， 
然后 将 压缩 数据 作为 解码 器 的 输入 ， 解 码 吉 将 其 解码 为 原始 数据 《〈 裸 数 
据 ) ， 之 后 束 可 以 将 原始 数据 写 入 文件 了 : 





AVPacket packet,; 
int gotFrame = 0; 
while(true) { 
if(av_read frame(formatContext, &packet)) { 
// End Of File 
break; 


int packetStreamIndex = packet.stream index; 
If(packetStreamIndex == videoStreamIndex) { 
int len = avcodec decode video2(videoCodecCtx, videoFrame, 
&gotFrame, &packet); 
if(len < 0) { 
break; 


} 
if(gotFrame) { 
self->handleVideoFrame( ); 


} else if(packetStreamIndex == audioStreamIndex) { 
int len = avcodec decode audio4(audioCodecCtx, audioFrame, 
&gotFrame, &packet); 
if(len < 0) { 
break; 


} 

if(gotFrame) { 
self->handleVideoFrame( ); 

} 





7. 处 理解 码 后 的 裸 数据 


解码 之 后 会 得 到 裸 数 据 ， 音 频 就 是 CCM 数 据 ， 视 频 束 是 YUV 数 
据 。 下 面 将 其 处 理 成 我 们 所 需要 的 格式 并 且 进 行 写 文 件 。 


音频 裸 数 据 的 处 理 : 





void* audioData; 
int numFrames ， 
if(swrContext) { 
int bufSize = av_samples_ get_ buffer_size(NULL, channels, 
(int)(audioFrame->nb_samples * channels), 
AV_SAMPLE_FMT_S16, 1); 
if (!_swrBuffer || _swrBufferSize < bufSize) { 
swrBufferSize = bufSize,; 
swrBuffer = realloc(_swrBuffer, _swrBufferSize); 


Byte *outbuf[2] = { _swrBuffer, 0 }; 

numFrames = swr_convert(_swrContext, outbuf, 
(int)(audioFrame->nb_samples * channels), 
(const uint8 t **) audioFrame->data, 
audioFrame->nb_samples); 

audioData = swrBuffer; 
} else { 
audioData 
numFrames 


audioFrame->data[0]; 
audioFrame->nb_samples; 





接收 到 音频 裸 数据 之 后 ， 束 可 以 直接 写 文 件 了 ， 比 如 写 到 文件 


audio.pcm 中 。 


视频 裸 数据 的 处 理 : 





uint8_t* luma; 
uint8_t* chromaB; 
uint8_t* chromaR; 
if(videoCodecCtx->pix_fmt == AV_PIX_FMT_YUV420P || 
videoCodecCtx->pix_fmt == AV_PIX_FMT_YUVJ420P){ 
Juma = copyFrameData(videoFrame->data[0], 
videoFrame->linesize[0], 
videoCodecCtx->width, 
videoCodecCtx->height); 
chromaB = copyFrameData(videoFrame->datal[1], 
videoFrame->linesize[1], 
videoCodecCtx->width / 2, 
videoCodecCtx->height / 2); 
chromaR = copyFrameData(videoFrame->data[2], 
videoFrame->linesize[2], 
videoCodecCtx->width / 2, 
videoCodecCtx->height / 2); 
} elsef{ 
sws_scale(_swsContext, 
(const uint8 t **)videoFrame->data, 
videoFrame->linesize, 


了 

videoCodecCtx->height, 
picture.data, 
picture.linesize); 

luma = copyFrameData(picture.data[0], 
picture.linesize[0], 
videoCodecCtx->width, 
videoCodecCtx->height); 

chromaB = copyFrameData(picture.datal[1], 
picture.linesize[1], 
videoCodecCtx->width / 2, 
videoCodecCtx->height / 2); 

chromaR = copyFrameData(picture.data[2], 
picture.linesize[2], 
videoCodecCtx->width / 2, 
videoCodecCtx->height / 2); 





接收 到 YUV 数 据 之 后 也 可 以 直接 写 入 文件 了 ， 比 如 写 到 文件 
video.yuv 中 。 


8. 关 财 所 有 资源 

解码 完毕 之 后 ， 或 者 在 解码 过 程 中 不 想 继续 解码 了 ， 可 以 退出 程 
序 ， 当 然 ， 退 出 的 时 候 ， 要 将 用 到 的 FFmpeg 框 架 中 的 资源 ， 包 括 
FFmpeg 框 染 对 外 的 连接 资源 等 全 都 释 放 掉 。 


关闭 首 频 资源 : 








if (swrBuffer) { 
free(SwrBuffer ); 
swrBuffer = NULL; 
swrBufferSize = 0; 


} 

if (swrContext) { 
swr_free(&swrContext ) ; 
swrContext = NULL; 


} 

if (audioFrame) { 
av_free(audioFrame); 
audioFrame = NULL,; 


} 

if (audioCodecCtx) { 
avcodec_ close(audioCodecCtx); 
audioCodecCtx = NULL， 





关闭 视频 资源 : 





if (swsContext) { 
sws_freeContext(swsContext); 
swsContext = NULL; 


} 

if (pictureValid) { 
avpicture_free(&picture); 
pictureValid = false; 


} 

if (videoFrame) { 
av_free(videoFrame); 
videoFrame = NULL; 


} 

if (videoCodecCtx) { 
avcodec close(videoCodecCtx); 
videoCodeccCtx = NULL; 

} 





关闭 连接 资源 : 





If (formatCtx) { 
avformat_close_input(&formatCtx); 
formatCtx = NULL; 

} 





以 上 就 是 利用 FFmpeg 解 码 的 全 部 过 程 了 ， 其 中 包括 打开 文件 流 、 
解析 格式 、 解 析 流 并 且 打 开 解 码 器 、 解 码 和 处 理 ， 以 及 最 终 关 闭 所 有 资 
源 的 操作 。 项 目 实例 在 代码 仓库 中 是 FFmpegDecoder 项 目 。 关 于 FFmpeg 
的 API 调 用 其 实 也 就 是 这 些 步 又， 只 要 多 使 用 几 次 就 可 以 熟练 掌握 ， 但 
是 具体 到 FFmpeg 在 某 一 步 到 底 都 做 了 些 什么 操作 呢 ? 3.3 节 将 会 市 领 我 
们 揭秘 FFmpeg 内 部 是 如 何 实现 这 些 处 理 的 。 


3.3 FFmpeg 源码 结构 


3.2 节 中 已 经 详细 介绍 了 FFmpeg 每 个 模块 的 作用 ， 并 且 通 过 图 3-1 基 
本 了 解 了 FFmpeg 的 内 部 结构 ， 本 节 就 来 详细 地 看 一 下 FFmpeg 具 体 每 个 
模块 里 面 是 如 何 实现 自己 的 职责 的 。 





3.3.1 libavformat 与 libavcodec 介 绍 


首先 ， 来 看 最 重要 的 模块 之 一 的 libavformat， 其 主要 组 成 与 层次 调 
用 关系 如 图 3-2 所 示 。 


URLContext 


增加 Buffer 的 
缓冲 区 


AVIOContext(buffer) 


Demuxer/muxer 
Streams 


AVFormatContext 





图 3-2 


AVFormatContext 是 API 层 直接 接触 到 的 结构 体 ， 它 会 进行 格式 的 封 
装 与 解 封 装 ， 它 的 数据 部 分 由 底层 提供 ， 底 层 使 用 了 AVIOContext， 这 
个 AVIOContext 实 际 上 就 是 为 普通 的 IO 增加 了 一 层 Buffer 缓 冲 区 ， 再 往 
底层 就 是 URLContext， 也 就 是 到 达 了 协议 层 ， 协 议 层 的 具体 实现 有 很 
多 ， 包 括 rtmp、http、hls、file 等 ， 这 就 是 libavformat 的 内 部 封装 了 。 


其 次 ， 再 来 看 另外 一 个 最 重要 的 模块 jibavcodec， 其 主要 组 成 与 数 
据 结构 如 图 3-3 所 示 。 








AVStream: 
codec 
priv_data 


AVCodecContext: 
codec type 
codec id 
extra_data 


存储 非 压缩 数据 
(视频 对 应 RGB/ 


YUV 像素 数据 ， 
音频 对 应 PCM 采 
样 数据 ) 


存储 压缩 数据 
(视频 对 应 H.264 等 
码 流 数据 ， 音 频 对 pts/dts pts 
应 AACIMP3 等 码 流 ElE]ED dts 
数据 ) stream_index Data 
flags Duration 
duration 


AVPacket: AVFrame: 





图 3-3 


对 于 开发 者 来 说 ， 这 一 层 我 们 能 接触 到 的 最 顶层 的 结构 体 就 是 
AVCodecContext， 该 结构 体 包 含 的 就 是 与 实际 的 编 解 码 有 关 的 部 分 。 首 
先 ，AVCodecContext 是 包含 在 一 个 AVStream 里 面 的 ， 即 描述 了 这 路 流 
的 编码 格式 是 什么 ， 其 中 存放 了 具体 的 编码 格式 信息 ， 根 据 Codec 的 信 
晨 可 以 打开 编码 器 或 者 解码 器 ， 然 后 利用 该 编码 器 或 者 解码 器 进行 
AVPacket 与 AVFrame 之 则 的 转换 (实际 上 就 是 解码 或 者 编码 的 过 程 〉， 
这 是 FFmpeg 中 最 重要 的 一 部 分 。 那 么 ， 接 下 来 就 来 看 一 下 在 API 中 调用 
了 FFmpeg 的 一 些 方法 之 后 ，FFmpeg 内 部 到 底 做 了 些 什 么 呢 ? 


3.3.2 FFmpeg 通用 API 分 析 


1.av_register_all 分 析 





还 记得 前 面 最 开始 编译 FFmpeg 的 时 候 ， 做 了 一 个 configure 的 配置 
吗 ? 其 中 开启 (enable) 或 者 关闭 〈disable) 了 很 多 选项 ， 当 初 可 是 留 
了 一 句 话 ，configure 的 配置 会 生成 两 个 文件 : config.mk 与 config.h。 
config.mk 实 际 上 就 是 makefile 文 件 需要 包含 进去 的 子 模 块 ， 会 作用 在 编 
译 阶段 ， 帮 助 开 发 者 编译 出 正确 的 库 ; 而 config.h 是 作用 在 运行 阶段 ， 
这 一 阶段 将 确定 需要 注册 哪些 容器 以 及 编 解 码 格式 到 FFmpeg 框 架 中 。 
所 以 该 函数 的 内 部 实现 会 先 调用 avcodec_register_all 来 注册 所 有 config.h 
里 面 开放 的 编 解码 器 ， 然 后 会 注册 所 有 的 Muxer 和 Demuxer( 也 就 是 封 
装 格式 ) ， 最 后 注册 所 有 的 Protocol ( 即 协议 层 的 东西 ) 。 这 样 一 来 ， 
在 configure 过 程 中 开局 〈enable) 或 者 关闭 (disable〉 的 选项 就 就 作用 
到 了 运行 时 ， 该 函数 的 源码 分 析 涉 及 的 源码 文件 包括 : url.c、 


allformats.c、mux.c、format.c 等 文件 。 


2.av_find_codec 分 析 





这 里 面 其 实 包 含 了 两 部 分 的 内 容 : 一 部 分 是 寻找 解码 器 ， 一 部 分 是 
寻找 编码 器 。 其 实在 第 一 步 的 avcodec_register_all 函 数 里 面 已 经 把 编码 
器 和 解码 器 都 存放 到 一 个 链表 中 了 ， 在 这 里 寻找 编码 器 或 者 解码 器 都 是 
从 第 一 步 构 造 的 链表 中 进行 表 历 ， 通 过 Codec 的 ID 或 者 name 进 行 条 件 匹 
配 ， 最 终 返 回 对 应 的 Codec。 


3.avcodec_open2 分 析 





该 函数 是 打开 编 解 码 器 (Codec) 的 函数 ， 无 论 是 编码 过 程 还 是 解 
码 过程 ， 都 会 用 到 该 函数 ， 该 函数 的 输入 参数 有 三 个 : 第 一 个 是 
AVCodecContext， 解 码 过 程 由 FFmpeg 引 擎 填充 ， 编 码 过 程 由 开发 者 自 
己 构 造 ， 如 果 想 要 传 入 私有 参数 ， 则 为 它 的 priv_data 设 置 参数 ， 比 如 在 
libx264 编 码 器 中 设置 preset、tune、profile 等 ， 第 二 个 参数 是 上 一 步 通 过 
av_find_codec 寻 找 出 来 的 编 解码 器 〈Codec) ; 第 三 个 参数 一 般 会 传递 
NULL。 有 具体 到 该 函数 的 实现 时 ， 就 会 找到 对 应 的 实现 文件 ， 那 么 其 是 
如 何 找到 对 应 的 实现 文件 的 呢 ? 这 就 需要 回 到 第 一 步 中 来 看 看 其 是 如 何 
注册 的 ， 比 如 libx264 的 编码 右 ， 碍 看 其 注册 会 发 现 f 和 libx264_encoder 绪 
构 体 的 定义 存在 于 libx264.c 中 ， 所 以 该 Codec 的 生命 周期 方法 就 会 委托 

















给 该 结构 体 对 应 的 函数 指针 所 指 同 的 函数 ，open 对 应 的 就 是 init 函 数 指 
针 所 指 问 的 函数 ， 该 函数 里 面 束 会 调用 具体 的 编码 库 的 API， 比 如 
libx264 这 个 Codec 会 调用 libx264 的 编码 库 的 API， 而 LAME 这 个 Codec 会 
调用 LAME 的 编码 库 的 API， 并 且 会 以 对 应 的 AVCodecContext 中 的 
priv_data 来 填充 对 应 第 三 方 库 所 需要 的 私有 参数 ， 如 果 开 发 者 没有 对 属 
性 priv_data 填 充值 ， 那 么 就 使 用 默认 值 。 








4.avcodec _close 分 析 


如 末 理 解 了 avcodec_open， 那 么 对 应 的 close 束 是 一 个 敢 过 程 ， 找 到 
对 应 的 实现 文件 中 的 dlose 函 数 指针 所 指 问 的 函数 ， 然 后 该 函数 会 调用 对 
应 第 三 方 库 的 API 来 关闭 掉 对 应 的 编码 库 。 其 实 FFmpeg 所 做 的 事情 就 是 
透明 化 所 有 的 编 解 码 库 ， 用 目 己 的 封装 来 为 开发 者 提供 统一 的 接口 。 开 
发 者 使 用 不 同 的 编码 库 时 ， 只 需要 指明 要 使 用 哪 一 个 即 可 ， 这 也 充分 体 
现 了 面 癌 对 象 编程 中 的 封装 特性 ， 关 于 FFmpeg 面 问 对 象 的 特性 后 续 还 


会 进一步 讨论 。 











3.3.3 ”调用 FFmpeg 解 码 时 用 到 的 函数 分 析 


1.avformat_open_input 分 析 


函数 avformat_open_input 会 根据 所 提供 的 文件 路 径 判 断 文件 的 格 
式 ， 其 实 束 是 通过 这 一 步 来 决定 使 用 的 到 底 是 哪 一 个 Demuxer。 举 例 来 
说 ， 如 果 是 fly， 那 么 Demuxer 就 会 使 用 对 应 的 ff flv_demuxer， 所 以 对 应 
的 关键 生命 周期 的 方法 read_header、read_packet、read_seek、read_close 
都 会 使 用 该 flv 的 Demuxer 中 国 数 指针 指定 的 函数 。read_header 函 数 会 将 
Ve 构 体 构造 好 ， 以 便 后 续 的 步骤 继续 使 用 AVStream 作 为 输入 





2.avformat find_stream_info 分 析 


这 个 函数 非常 重要 ， 后 续 章 节 中 将 要 介绍 的 如 何在 直播 场景 下 的 拉 
流 客户 问 中 “ 秒 开 站 屏 ”， 束 是 与 该 函数 分 析 的 代码 实现 奶 明 相关 的 ， 该 
方法 的 作用 就 是 把 所 有 Stream 的 MetaData 信 息 填充 好 。 方 法 内 部 会 先 查 
找 对 应 的 解码 器 ， 然 后 打开 对 应 的 解码 器 ， 紧 接着 会 利用 Demuxer 中 的 
read_packet 函 数 读 取 一 段 数 据 进行 解码 ， 当 然 解码 的 数据 越 多 ， 分 析出 
的 流 信 息 束 会 越 准确 ， 如 果 是 本 地 资源 ， 那 么 很 快 就 可 以 得 到 非常 准确 
的 信息 了 ， 但 是 对 于 网 络 资源 来 说 ， 则 会 比较 慢 ， 因 此 该 函数 有 几 个 参 
数 可 以 控制 读 取 数 据 的 长 度 ， 一 个 是 probe size， 一 个 是 
max_analyze_duration， 还 有 一 个 是 fps_probe_size， 这 三 个 参数 共同 控制 
解码 数据 的 长 度 ， 当 然 ， 如 果 配 置 这 几 个 参数 的 值 越 小 ， 那 么 这 个 函数 
执行 的 时 间 就 会 越 快 ， 但 是 会 导致 AVStream 结 构 体 里 面 一 些 信息 〈 视 
频 的 守 、 高 、fps、 编 码 类 型 等 ) 不 准确 。 

















3.av_read frame 分 析 


使 用 该 方法 读 取出 来 的 数据 是 AVPacket， 在 FFmpeg 的 早期 版 本 中 
开放 给 开发 者 的 函数 其 实 就 是 av_read_packet， 但 是 需要 开发 者 自己 来 
处 理 AVPacket 中 的 数据 不 能 被 解码 器 完全 处 理 完 的 情况 ， 即 需要 把 未 处 
理 完 的 压缩 数据 缓存 起 来 的 问题 。 所 以 到 了 新 版 本 的 FFmpeg 中 ， 其 所 
供 了 该 函数 ， 用 于 处 理 此 状况 。 该 函数 的 实现 首先 会 委托 到 Demuxer 的 
read_packet 方 法 中 去 ， 当 然 read_packet 通 过 解 复 用 层 和 协议 层 的 处 理 之 
后 ， 会 将 数据 返回 到 这 里 ， 在 该 函数 中 进行 数据 缓冲 处 理 。 前 面 曾 说 
过 ， 对 于 音频 流 ， 一 个 AVPacket 可 能 包含 多 个 AVEFrame， 但 是 对 于 视频 





流 ， 一 个 AVPacket 只 包含 一 个 AVFrame， 该 函数 最 终 只 会 返回 一 个 
AVPacket 结 构 体 。 


4.avcodec_decode 分 析 


该 方法 包含 了 两 部 分 内 容 : 一 部 分 是 解码 视频 ， 一 部 分 是 解码 音 
频 。 在 上 面 的 函数 分 析 中 ， 我 们 知道 ， 解 码 是 会 委托 给 对 应 的 解码 器 来 
实施 的 ， 在 打开 解码 器 的 时 候 就 找到 了 对 应 解码 器 的 实现 ， 比 如 对 于 解 
码 H264 来 讲 ， 会 找到 ff_h264_decoder， 其 中 会 有 对 应 的 生命 周期 函数 的 
实现 ， 最 重要 的 就 是 init、decode、close 这 三 个 方法 ， 分 别 对 应 于 打开 
解码 以 及 关闭 解码 器 的 操作 ， 而 解码 过 程 束 是 调用 decode 方 





5.avformat_close_input 分 析 


该 函数 负责 释放 对 应 的 资源 ， 首 先 会 调用 对 应 的 Demuxer 中 的 生命 
周期 read_close 方 法 ， 然 后 释放 掉 AVFormatContext， 最 后 关闭 文件 或 者 
远程 网 络 连 接 。 





3.3.4 调用 FFmpeg 编 码 时 用 到 的 函数 分 析 


1.avformat_alloc_output_context2 分 析 


该 函数 内 部 需要 调用 方法 avformat_alloc_context 来 分 配 一 个 
AVFormatContext 结 构 体 ， 当 然 最 关键 的 还 是 根据 上 一 步 注 册 的 Muxer 和 
Demuxer 部 分 〈 也 就 是 封装 格式 部 分 ) 去 找到 对 应 的 格式 。 有 可 能 是 flv 
格式 、MP4 格 式 、mov 格 式 ， 甚 至 是 MP3 格 式 等 ， 如 果 找 不 到 对 应 的 格 
式 〈 即 在 configure 选 项 中 没有 打开 这 个 格式 的 开关 ) ， 那 么 这 里 会 返回 
找 不 到 对 应 的 格式 的 错误 提示 。 在 调用 API 的 时 候 ， 可 以 使 用 av_err2str 
把 返回 整数 类 型 的 错误 代码 转换 为 肉眼 可 读 的 字符 串 ， 这 在 调试 的 时 候 
是 一 个 比较 有 用 的 工具 函数 。 该 函数 最 终 会 将 找 出 来 的 格式 赋值 给 


AVFormatContext 类 型 的 oformat。 
2.avio_open2 分 析 


首先 调用 函数 ffurl_open， 构 造 出 URLContext 结 构 体 ， 这 个 结构 体 
中 包含 了 URLProtocol〈 需 要 去 第 一 步 register_protocol 中 已 经 注册 的 协 
议 链表 中 寻找 ) ; 接着 会 调用 avio_alloc_context 方 法 ， 分 配 出 
AVIOContext 结 构 体 ， 并 将 上 一 步 构造 出 来 的 URLProtocol 传 递 进来 ， 然 
后 把 上 一 步 分 配 出 来 AVIOContext 结 构 体 赋值 给 AVFormatContext 的 局 
性 ， 其 实 这 就 是 图 3-2 表 示 的 结构 了 。 而 该 过 程 恰 好 是 上 面 所 分 析 的 
avformat_open_input 函 数 的 实现 过 程 的 一 个 逆 过 程 。 之 前 束 提 到 过 ， 编 
码 过 程 和 解码 过 程 从 逻辑 上 来 讲 本 来 就 是 一 个 逆 过 程 ， 所 以 在 FFmpeg 
的 实现 过 程 中 它们 也 是 一 个 逆 过 程 。 


后 面 的 步骤 也 都 是 解码 的 一 个 逆 过 程 ， 解 码 过 程 中 的 
av_find_stream_info 对 应 到 这 里 就 是 avformat_new_stream 和 
avformat write_ header。avformat_new_stream 函 数 会 将 音频 流 或 者 视频 
流 的 信息 填充 好 ， 分 配 出 AVStream 结 构 体 ， 在 音频 流 中 分 配 声 道 、 采 
样 率 、 表 示 格 式 、 编 码 器 等 信息 ， 在 视频 流 中 分 配 宽 、 高 、 帧 率 、 表 示 
格式 、 编 码 器 等 信息 ; avformat_ write_header 函 数 与 解码 过 程 中 的 
read_header 恰 好 是 一 个 逆 过 程 ， 因 此 这 里 将 不 再 介绍 。 接 下 来 就 是 编码 
的 阶段 了 ， 开 发 者 需要 将 手动 封装 好 的 AVFrame 结 构 体 ， 作 为 
avcodec_encode_video 方 法 的 输入 ， 将 其 编码 成 为 AVPacket， 然 后 调用 
av_write_frame 方 法 输出 到 媒体 文件 中 。 而 av_write_frame 方 法 会 将 编码 




















后 的 AVPacket 结 构 体 作为 Muxer 中 的 write_packet 生 命 周 期 方法 的 输入 ， 
write_packet 函 数 会 加 上 目 己 封装 格式 的 头 信息 ， 然 后 调用 协议 层 写 到 本 
地 文件 或 者 网 络 服务 器 上 。 最 后 一 步 束 是 av_write_trailer， 该 水 数 有 一 
个 非常 大 的 坑 ， 如 果 没 有 执行 write_header 操 作 ， 就 直接 执行 write_trailer 
操作 ， 程 序 会 直接 崩 尝 ( 即 Crash 掉 〉， 所 以 必须 保证 这 两 个 函数 成 对 
出 现 。write_trailer 函 数 的 实现 会 把 没有 输出 的 AVPacket 全 部 丢 给 协议 层 
去 做 输出 ， 然 后 会 调用 Muxer 的 write trailer 生命 周期 方法 ， 对 于 不 同 的 
格式 写 出 的 尾部 也 不 尽 相 同 ， 这 里 不 再 逐一 介绍 。 


对 于 FFmpeg 的 使 用 以 及 源码 分 析 ，CSDN 上 有 一 个 名 叫 雷 雷 骅 的 博 
主 对 此 分 析 得 非常 细致 ， 非 常 不 幸 的 是 ， 雷 雷 骅 现在 已 经 去 世 了 ， 笔 者 
曾经 和 雷 雷 骅 交谈 过 ， 对 于 雷 雷 骅 的 分 享 精神 以 及 他 对 刚 进入 视频 领域 
新 手 的 耐心 指导 都 非常 钦 候 ， 其 实在 国内 很 多 使 用 FFmpeg 的 人 或 多 或 
少 都 听 说 过 雷 直 骅 这 个 名 字 ， 他 无 私 地 帮助 了 很 多 人 ， 作 为 一 个 技术 人 
员 ， 我 为 他 感到 骄傲 。 











3.3.5 面 问 对象 的 C 语 言 设 计 


笔者 重读 了 FFmpeg 的 源码 之 后 写 下 了 上 面 的 分 析 内 容 ， 但 是 这 里 
想 要 和 大 家 聊 一 个 更 高 层次 的 内 容 ， 即 面 问 对 象 与 面 问 结构 。 有 人 说 C 
语言 是 面 癌 结构 的 语言 ， 写 出 来 的 代码 虽然 性 能 很 高 ， 但 是 可 读 性 与 维 
护 性 很 差 ， 没有 面 同 对 象 程序 设计 的 思维 ， 很 难 做 出 大 型 项 目 。 既 然 已 
经 分 析 了 FFmpeg 的 源码 ， 那 么 我 们 可 以 想 一 想 FFmpeg 这 么 强大 的 开源 
媒体 处 理 库 ， 它 的 稳定 性 与 迭代 速度 在 业界 中 其 实 古 非常 不 错 的 ， 并 且 
其 扩展 性 与 代码 可 读 性 也 是 相当 好 的 ， 所 以 扩展 性 与 可 读 性 真 的 与 语言 
或 者 编程 思想 有 关系 吗 ? 既然 已 经 读 到 了 这 里 ， 那 束 说 明 大 家 对 
FFmpeg 已 经 有 了 整体 的 了 解 ， 下 面 再 回 到 最 开始 来 看 看 FFmpeg 是 如 何 
被 编译 以 及 使 用 的 。 


在 编译 的 时 候 可 以 进行 配置 ， 既 可 以 纵 同 裁 闵 模块 (是 否 还 记得 
configure 里 面 的 disable-avdevice、disable-muxers、disable-decoders) ， 
又 可 以 横 同 裁 交 支持 的 格式 、 编 解码 器 (enable-muxer=flv、enable- 
decoder=aac、enable-encoder=libfdk_aac) 。 该 框架 支持 多 种 格式 、 多 种 
编 解码 器 、 多 种 首 视 频 滤 镜 处 理 ， 关 键 是 如 果 后 期 增加 格式 、 编 解码 
器 、 音 视频 滤 镜 只 需要 新 增 代 码 与 修改 配置 文件 (configure〉， 而 不 需 
要 改动 已 有 框架 的 代码 层面 。 FFmpeg 里 面 利用 C 语 言 结构 体 的 定义 《如 
encoder 的 init、open、decode、encode、close 等 方法 ) 与 语言 特性 ， 实 现 
了 面 同 接口 编程 ， 而 且 完 全 符合 开 闭 原则 对 新 增 代码 开放 ， 对 修改 
代码 关 闭 ， 这 也 是 FFmpeg 能 做 到 代码 的 可 读 性 与 扩展 性 的 精 要 部 分 。 
其 实 写 代 码 (Coding) 提升 的 过 程 也 是 我 们 对 事物 认识 提升 的 过 程 ， 只 
再 来 看 它 的 实现 思想 ， 束 可 以 得 到 更 

JJ 以 犹 。 


下 面 就 以 一 个 短小 的 篇 幅 来 分 析 一 下 libx264 编 码 器 是 如 何 被 增加 到 
FFmpeg 框 架 中 的 。 首 先 新 增 libx264.c 这 个 文件 ， 在 文件 中 定义 结构 体 : 






































AVCodec libx264 encoder = { 
,name = ”libx264” 
‘type = CODEC_TYPE_VIDEO 
.id=CODEC_ID_H264 
.priv_data size=sizeof(X264Context) 
.init=X264_init 
,encode=X264_frame 
.Close=X264_close 


} 


二 一 


通过 结构 体 可 以 看 到 对 于 编码 器 几 个 生命 周期 方法 的 定义 ， 其 实 ， 
新 增 的 libx264.c 实 际 上 就 是 FFmpeg 对 于 第 三 方 libx264 库 的 一 个 封装 ， 提 
供给 用 户 的 API 都 是 固定 的 FFEmpeg 的 API， 而 libx264.c 文 件 就 相当 于 是 
第 三 方 库 libx264 的 客户 端 代 码 。 在 使 用 libx264 编 码 的 时 候 ， 开 发 者 需要 
编译 静态 库 x264， 然 后 作为 External-libs 的 形式 加 入 到 FFmpeg 框 架 中 。 


当 我 们 在 外 界 调用 avcodec _find_encoder 的 时 候 ， 就 会 去 寻找 这 个 结 
构 体 ， 当 调用 avcodec_open 的 时 候 就 会 调用 到 结构 体 的 init 方 法 ， 进 而 会 
调用 到 新 增 的 这 个 文件 中 的 X264_init 方 法 ， 而 在 X264_init 方 法 中 ， 则 会 
调用 真正 的 libx264 库 里 面 的 API;， 当 调用 avcodec_encode 的 时 候 就 会 调 
用 结构 体 的 encode 方 法 ， 进 而 会 调用 X264 _frame 方 法 ， 而 在 X264_frame 
方法 中 则 会 真正 地 使 用 libx264 的 API， 类 似 地 ， 当 调用 avcodec_close 的 
时 候 ， 束 会 调用 X264_close 这 个 方法 ; 当然 对 于 一 些 私 有 的 配置 ， 将 统 
一 放 到 AVCodecContext 的 priv_data 里 面 去 ， 然 后 在 初始 化 X264 库 的 时 候 
取出 来 ， 并 对 X264 库 中 的 API 进 行 设 置 。 





3.4 本 章 小 结 


至 此 ， 对 于 FFmpeg 的 介绍 就 结束 了 ， 当 然 FFmpeg 库 的 强大 是 众 所 
周知 的 ， 显 然 用 一 章 的 篇 幅 要 想 将 其 讲 得 特别 透彻 几乎 是 不 可 能 的 ， 本 
章 用 了 大 量 篇 幅 来 讲解 如 何在 多 个 平台 上 上 编译、 安装、 使 用 命令 行 ， 以 
及 如 何以 API 的 方式 使 用 FFmpeg， 并 且 对 FFmpeg 的 源码 也 做 了 分 析 ， 
最 后 进行 了 一 个 升华 ， 分 析 了 FFmpeg 是 如 何 使 用 面向 结构 的 C 语 言 来 满 
足 开 闭 原 则 的 ， 并 使 得 整个 FFmpeg 代 码 的 可 读 性 与 扩展 性 都 能 达到 一 
个 非常 高 的 级 别 。 


后 面 的 章节 将 会 用 到 本 章 的 内 容 ， 请 大 家 重点 掌握 FFmpeg 在 代码 
层面 AP 方式 的 使 用 ， 当 然 命 令 行 的 使 用 可 以 作为 工具 来 了 解 ， 用 多 了 
就 都 能 记 住 了 。 本 章 的 项 目 实例 是 代码 目录 的 FFmpegDecoder 项 目 ， 在 
Android 平 台 下 ， 需 要 把 resource 目 录 下 面 的 131.mp3 复 制 到 sdcard 的 根 目 
录 下 。 无 论 是 在 Android 还 是 在 iOS 平 台 下 ， 最 终 输出 的 目标 文件 都 可 以 
用 ffplay 指 定 声 道 、 采 样 率 以 及 表示 格式 ， 以 进行 播放 ， 如 果 可 以 正常 
播放 则 代表 我 们 的 解码 是 成 功 的 。 











第 4 章 “移动 平台 下 的 音 视频 演 染 


前 面 的 章节 基本 上 都 在 介绍 音 视频 的 概念 与 工具 的 使 用 ， 如 果 再 不 
动手 痪 一些 代码 ， 想 必 工 程 师 读者 都 会 有 点 手 痒 了 吧 。 那 就 动手 实践 起 
来 吧 ! 本 章 将 主要 讲解 :OS 平台 和 Android 平 台 上 的 音 视频 渲染 ， 即 接收 
到 音 视 频 的 原始 数据 之 后 ， 如 何 利 用 iOS 平 台 与 Android 平 台 的 API 泻 染 
到 扬声器 (Speaker) 或 者 屏幕 (View) 上 。 声 音 的 演 染 在 iOS 平 台 上 会 
直接 使 用 AudioUnit (AUGraph) 之 类 的 API 接 口 ，Android 平 台 则 使 用 
OpenSL ES 或 者 AudioTrack 这 两 类 接口 。 而 对 于 视频 画面 的 泻 染 ， 笔 者 
会 为 大 家 介绍 一 种 跨 平 台 的 泻 染 技术 ， 即 OpenGL ES， 本 章 将 根据 两 个 
平台 各 自 提供 的 API 来 构造 出 OpenGL ES 环境 ， 然 后 再 利用 统一 的 
OpenGL 程 序 (Program) 将 一 张 图 片 泻 染 到 屏幕 上 。 








4.1 AudioUnit 介 绍 与 实践 
在 iOS 平 台 上 ， 上 所 有 的 音频 框架 底层 都 是 基于 AudioUnit 实 现 的 ， 如 
图 4-1 所 示 。 较 高 层次 的 音频 框架 包括 : Media Player、AV Foundation、 
OpenAL 和 Audio Toolbox， 这 些 框架 都 封装 了 AudioUnit， 然 后 提供 了 更 
高 层次 的 API〈 功 能 更 少 ， 职 责 更 单一 的 接口 ) 。 
Media Player AV Foundation 


OpenAL Audio Toolbox Foundation 


Drivers and Hardware 


图 4-1 


当 开 发 者 在 开发 音频 相关 产品 的 时 候 ， 如 果 对 音频 需要 更 高 程度 的 
控制 、 性 能 以 及 灵活 性 ， 或 者 想 要 使 用 一 些 特 殊 功 能 〈 回 声 消除 ) 的 时 
候 ， 可 以 直接 使 用 AudioUnit API。 苹 果 官 方 文档 中 描述 ，AudioUnit 提 
供 了 音频 快速 的 模块 化 处 理 ， 如 果 是 在 以 下 场景 中 ， 更 适合 使 用 
AudioUnit 而 不 是 使 用 高 层次 的 音频 框架 。 


' 想 使 用 低 延 迟 的 音频 IO (input 或 者 output) ， 比 如 说 在 VoIP 的 应 
用 场景 下 。 


多 路 声音 的 合成 并 且 回 放 ， 比 如 游戏 或 者 音乐 合成 器 的 应 用 。 


.使 用 AudioUnit 里 面 提 供 的 特有 功能 ， 比 如 : 回声 消除 、Mix 两 轨 
音频 ， 以 及 均衡 器 、 压 缩 器 、 混 啊 器 等 效果 器 。 


需要 图 状 结构 来 处 理 首 频 ， 可 以 将 首 频 处 理 模 块 组 凌 到 灵活 的 图 
状 结构 中 ， 苹 果 公 司 为 首 频 开 友 者 提供 了 这 种 API。 


本 节 的 讲解 将 会 从 创建 音频 会 话 开 始 ， 然 后 构建 一 个 AudioUnit， 
并 给 AudioUnit 设 置 参数 ， 然 后 介绍 AudioUnit 的 分 类 ， 最 终 会 构建 一 个 














AUGraph 来 完成 一 个 音频 播放 的 功能 ， 现 在 让 我 们 开始 本 节 的 学 习 吧 。 
1. 认 识 AudioSession 


在 iOS 的 音 视 频 开 发 中 ， 使 用 具体 API 之 前 都 会 先 创 建 一 个 会 话 ， 这 
里 也 不 例外 。 但 在 这 之 前 ， 先 来 认识 一 下 音频 会 话 (AudioSession ) ， 
其 用 于 管理 与 获取 iOS 设 备 音频 的 硬件 信息 ， 并 且 是 以 单 例 的 形式 存 
在 。 可 以 使 用 如 下 代码 来 获取 AudioSession 的 实例 : 








AVAudioSession *audioSession = [AVAudioSession SharedInstance] ; 





获得 AudioSession 的 实例 之 后 ， 就 可 以 设置 以 何 种 方式 使 用 音频 硬 
件 做 哪些 处 理 了 ， 基 本 的 设置 具体 如 下 所 示 。 


1) 根据 我 们 需要 人 硬件 设备 提供 的 能 力 来 设置 类 别 : 





[audioSession setCategory:AVAudioSessionCategoryPlayAndRecord error:&error]; 





2) 设置 /O 的 Buffer，Buffer 越 小 则 说 明 延 迟 越 低 : 





NSTimeInterval bufferDuration = 0.002,; 
[audioSession setPreferredIOBufferDuration:bufferDuration error:&error]; 





3) 设置 采样 频率 ， 让 硬件 设备 按照 设置 的 采样 频率 来 采集 或 者 播 
放 音 频 ; 








double hwSampJeRate = 44100 .0 ; 
[audioSession setPreferredSampleRate:hwSampleRate error:&error]; 








4) 当 设 置 完毕 所 有 的 参数 之 后 束 可 以 激活 AudioSession 了 ， 代 码 如 
下 : 





[audioSession setActive:YES error:&error]; 





2. 构 建 AudioUnit 


在 创建 并 启用 音频 会 话 之 后 ， 束 可 以 构建 AudioUnit 了。 构建 
AudioUnit 的 时 候 需 要 指定 类 型 (Type) 、 子 类 型 (subtype) 以 及 厂商 
(Manufacture) 。 类 型 CType) 束 是 在 下 一 小 节 提 到 的 四 大 类 型 的 
AudioUnit 的 Type; 而 子 类 型 (subtype) 就 是 该 大 类 型 下 面 的 子 类 型 
(比如 Effect 该 大 类 型 下 面 有 EQ、Compressor、1limiter 等 子 类 型 ) ; 厂 
商 〈Manufacture) 一 般 情况 下 比较 固定 ， 直 接 写 成 
kAudioUnitManufacturer_Apple 就 可 以 了 。 利 用 以 上 这 三 个 变量 开发 者 可 
以 完整 描述 出 一 个 AudioUnit 了 ， 比 如 使 用 下 面 的 代码 创建 一 个 
RemoteIO 类 型 的 AudioUnit: 











AudioComponentDescription ioUnitDescription; 
ioUnitDescription,componentType = kAudioUnitType_Output; 
ioUnitDescription.componentSubType = kAudioUnitSubType_RemoteI0; 
ioUnitDescription.componentManufacturer=kAudioUnitManufacturer_Apple; 
ioUnitDescription.componentFlags = 0; 
ioUnitDescription.componentFlagsMask = 0; 





上 述 代码 构造 了 RemoteIO 类 型 的 AudioUnit 描 述 的 结构 体 ， 那 么 如 
何 使 用 这 个 描述 来 构造 真正 的 AudioUnit 呢 ?有 两 种 方式 ， 第 一 种 方式 
是 直接 使 用 AudioUnit 裸 的 创建 方式 ， 第 二 种 方式 是 使 用 AUGraph 和 
AUNode (其 实 一 个 AUNode 就 是 对 AudioUnit 的 封装 ， 可 以 理解 为 一 个 
AudioUnit 虹 Wrapper〉 来 构建 。 下 面 就 来 分 别 介绍 这 两 种 方式 。 


(1) 裸 创 建 方式 
首先 根据 AudioUnit 的 描述 ， 找 出 实际 的 AudioUnit 类 型 : 





AudioComponent ioUnitRef = AudioComponentFindNext(NULL, &ioUnitDescription); 





然后 声明 一 个 AudioUnit 引 用 : 





AudioUnit ioUnitInstance,; 





最 后 根据 类 型 创建 出 这 个 AudioUnit 实 例 : 





AudioComponentInstanceNew(ioUnitRef, &ioUnitInstance); 





(2) AUGraph 创 建 方式 
首先 声明 并 且 实 例 化 一 个 AUGraph: 





AUGraph processingGraph 
NewAUGraph (&processingGraph); 





然后 按照 AudioUnit 的 摘 述 在 AUGraph 中 增加 一 个 AUNode: 





AUNode ioNode; 
AUGraphAddNode (processingGraph, &ioUnitDescription, &ioNode); 








接 下 来 打开 AUGraph， 其 实 打 开 AUGraph 的 过 程 也 是 间接 实例 化 
AUGraph 中 所 有 的 AUNode。 注 意 ， 必 须 在 获取 AudioUnit 之 前 打开 整个 
AUGraph， 否 则 我 们 将 不 能 从 对 应 的 AUNode 中 获取 正确 的 AudioUnit: 





AUGraphopen (processingGraph); 





最 后 在 AUGraph 中 的 某 个 Node 里 获得 AudioUnit 的 引用 : 





AudioUnit ioUnit; 
AUGraphNodeInfo (processingGraph, ioNode, NULL, &ioUnit); 





无 论 是 使 用 上 面 的 哪 一 种 方式 创建 AudioUnit， 都 可 以 创建 出 我 们 
想 要 的 AudioUnit， 而 具体 应 该 使 用 哪 一 种 方式 来 创建 AudioUnit， 还 需 
要 根据 实际 的 应 用 场景 来 决定 。 但 是 笔者 在 实际 的 工作 经 验 中 认识 到 ， 
使 用 AUGraph 的 结构 在 应 用 中 可 以 搭建 出 扩展 性 更 高 的 系统 ， 所 以 推荐 
使 用 第 二 种 方式 ， 本 章 后 面 的 实例 代码 都 是 使 用 第 二 种 方式 (AUGraph 
的 架构 ) 来 搭建 整个 音频 处 理 系 统 的 。 


3.AudioUnit 的 通用 参数 设置 








本 节 将 以 RemoteIO 这 个 AudioUnit 为 例 来 讲解 AudioUnit 的 参数 设 
置 ，RemoteIO 这 个 AudioUnit 是 与 硬件 IO 相关 的 一 个 Unit， 它 分 为 输入 
端 和 输出 端 “〈I 代 表 Input，O 代 表 Output) 。 输 入 端 一 般 是 指 麦 克 风 ， 输 
出 端 一 般 是 指 扬声器 (Speaker) 或 者 耳机 。 如 果 需 要 同时 使 用 输入 输 


出 ， 即 民歌 应 用 中 的 耳 返 功能 〈“ 用 户 在 唱歌 或 者 说 话 的 同时 ， 耳 机 会 将 
考区 风 收 录 的 声音 播放 出 来 ， 让 用 户 能 够 听 到 上 自己 的 声音 ) ， 则 需要 开 
发 者 做 一 些 设 置 将 它们 连接 起 来 ， 如 图 4-2 所 示 。 





Input scope Output scope 


Element 0 





Your application 
图 4-2 


图 4-2 中 RemoteIO Unit 分 为 Element0 和 Element1， 其 中 Element0 控 制 
输出 端 ，Element1 控 制 输入 端 ， 同 时 每 个 Element 又 分 为 mput ”Scope 和 和 
Output Scope。 如 果 开 发 者 想 要 使 用 扬声器 的 声音 播放 功能 ， 那 么 必须 
将 这 个 Unit 的 Element0 的 OutputScope 和 Speaker 进 行 连接 。 而 如 果 开 发 者 
想 要 使 用 麦克 风 的 录 首 功能 ， 那 么 必须 将 这 个 Unit 的 Element1 的 
InputScope 和 麦克 风 进 行 连接 。 使 用 扬声器 的 代码 如 下 : 





OSStatus status = noErr,; 

UInt32 oneFlag = 1; 

UInt32 buszero = 0;// Element 0 

status = AudioUnitSetProperty(remoteIOUnit, 
kAudioOutputUnitProperty_EnableIo, 
kAudioUnitScope_Output, 


buszZzero， 
&oneFlag, 
sizeof (oneFlag)); 
CheckStatus(status, @"Could not Connect To Speaker", YES); 





上 面 这 段 代 码 就 是 把 RemoteIOUnit 的 Element0 的 OutputScope 连 接 到 
Speaker 上， 连接 过 程 会 返回 一 个 OSStatus 类 型 的 值 ， 可 以 使 用 自 定 义 的 
CheckStatus 函 数 来 判断 错误 并 且 输 出 Could not Connect To Speaker 的 提 
示 。 有 具体 的 CheckStatus 函 数 如 下 : 





static void CheckStatus(OSStatus status, NSString *message, BOOL fatal) 


if(status != noErr) 
{ 
char fourcc[16]; 
*(UINt32 *)fourCC = CFSwapInt32HostToBig(status); 
fourcc[4] = '\0'，; 
if(isprint(fourCCc[0]) && isprint(fourcCc[1]) && isprint(fourcCC[2]) &é 
Isprint(fourcc[3])) 
NSLog(@"%@: %s", message, fourCcCcC); 
else 
NSLog(@"%@: %d", message, (int)status); 
if(fatal) 
exit(-1); 








接 下 来 再 来 看 一 下 如 何 局 用 麦克 风 的 代码 : 





UINt32 busone = 1; // Element 1 
AudioUnitSetProperty(remoteIOUnit, 
kAudioOutputUnitProperty_EnableIo, 
kAudioUnitScope_Input, 
busone, 
&oneFlag, 
sizeof (oneFlag); 





上 面 这 段 代 码 就 是 把 RemoteIOUnit 的 Element1 的 InputScope 连 接 上 
麦克 风 。 连 接 成 功 之 后 ， 就 应 该 给 AudioUnit 设 置 数 据 格式 了 ， 
AudioUnit 的 数据 格式 分 为 输入 和 输出 两 个 部 分 ， 下 面 先 来 看 一 个 Audio 


Stream Format 的 描述 : 





UINt32 bytesPerSample = sizeof(Float32); 
AudioStreamBasicDescription asbd; 
bzero(&asbd, sizeof(asbd)); 
asbd.mFormatID = kAudioFormatLinearPCM; 
asbd.mSampleRate = _sampleRate; 
asbd.mCchannelsPerFrame = channels; 


asbd.mFramesPerPacket = 1; 

asbd.mFormatFlags = kAudioFormatFlagsNativeFloatPacked | 
kAudioFormatFlagIsNonIinterleaved; 

asbd.mBitsPerChannel] = 8 * bytesPerSample; 

asbd.mBytesPerFrame = bytesPerSample; 

asbd.mBytesPerPacket = bytesPerSample; 





上 面 这 段 代 码 展示 了 如 何 填 充 AudioStreamBasicDescription 结 构 
体 ， 其 实在 iOS 平 台 做 音 视频 开发 入 了 束 会 知道 : 不 论 音频 还 是 视频 的 
API 都 会 接触 到 很 多 StreamBasic ”Description， 该 Description 就 是 用 来 描 
a, 。 下 面 就 来 具体 分 析 一 下 上 述 代码 是 如 何 指 定格 式 


-mFormatID 参 数 可 用 来 指定 音频 的 编码 格式 ， 此 处 指定 首 频 的 编码 
格式 为 PCM 格 式 。 


- 接 下 来 是 设置 声音 的 采样 率 、 声 道 数 以 及 每 个 Packet 有 几 个 


Erame。 


-mFormatFlags 是 用 来 描述 声音 表示 格式 的 参数 ， 代 码 中 的 第 一 个 参 
数 指定 每 个 sample 的 表示 格式 是 Float 格 式 ， 这 点 类 似 于 之 前 讲解 的 每 个 
sample 都 是 使 用 两 个 字 节 (SInt16)〉 来 表示 ; 然后 是 后 面 的 参数 
NonInterleaved， 字 面 理解 这 个 单词 的 意思 是 非 交 错 的 ， 其 实 对 于 音频 
来 讲 就 是 左右 声 道 是 非 交 错 存放 的 ， 实 际 的 音频 数据 会 存储 在 一 个 
AudioBufferList 结 构 中 的 变量 mBuffers 中 ， 如 果 mFormatFlags 指 定 的 是 
Nonpterleaved， 那 么 左 声 道 就 会 在 mnBuffers[0] 里 面 ， 右 声 道 就 会 在 
mBuffers[1] 里 面 ， 而 如 果 mFormatFlags 指 定 的 是 Interleaved 的 话 ， 那 么 
左右 声 道 就 会 交错 排列 在 mBuffers[0] 里 面 ， 理 解 这 一 点 对 于 后 续 的 开发 
将 是 十 分 重要 的 。 


. 接 下 来 的 mBitsPerChannel 表 示 的 是 一 个 声 道 的 音频 数据 用 多 少 位 
来 表示 ， 前 面 已 经 提 到 过 每 个 采样 使 用 Float 来 表示 ， 所 以 这 里 是 使 用 8 
乘 以 每 个 采样 的 字 节 数 来 赋值 。 


:最 终 是 参数 mBytesPerFrame 和 mBytesPerPacket 的 赋值 ， 这 里 需要 
根据 mFormatFlags 的 值 来 进行 分 配 ， 如 果 在 NonInterleaved 的 情况 下 ， 驶 
赋值 为 bytesPerSample《〈 因 为 左右 声 道 是 分 开 存放 的 ) ; 但 如 果 是 
Interleaved 的 话 ， 那 么 吏 应 该 是 bytesPerSample*channels《〈 因 为 左右 声 道 
是 交错 存放 的 ) ， 这 样 才 能 表示 一 个 Frame 里 面 到 底 有 多 少 个 byte。 


























至 此 ， 我 们 就 完全 构造 好 了 这 个 BasicDescription 结 构 体 ， 下 面 将 这 
个 结构 体 设 置 给 对 应 的 AudioUnit， 代 码 如 下 : 





AudioUnitSetProperty( remoteIOUnit,KkAudioUnitProperty_StreamFormat, 
kAudioUnitScope_ Output, 1, &asbd, sizeof(asbd)); 





4.AudioUnit 的 分 类 


介绍 完了 AudioUnit 的 通用 设置 之 后 ， 本 节 就 来 介绍 一 下 AudioUnit 
的 分 类 。iOS 按 照 AudioUnit 的 用 途 将 AudioUnit 分 为 五 大 类 型 ， 本 节 将 从 
全 局 的 角度 出 发 来 认识 各 大 类 型 以 及 其 下 的 子 类 型 ， 并 且 还 会 介绍 它们 
的 用 途 ， 以 及 对 应 参数 的 意义 。 


(1) Effect Unit 





类 型 是 kAudioUnitType_Effect， 主 要 提供 声音 特效 处 理 的 功能 。 其 
子 类 型 及 用 途 说 明 如 下 。 


:均衡 效果 器 : 子 类 型 是 kAudioUnitSubType_NBandEQ， 主 要 作用 
是 为 声音 的 茶 些 频带 增强 或 者 减弱 能 量 ， 该 效果 器 需要 指定 多 个 频带 ， 
然后 为 各 个 频带 设置 宽度 以 及 增益 ， 最 终 将 改变 声音 在 频 域 上 的 能 量 分 
布 。 


:压缩 效果 器 : 子 类 型 是 kAudioUnitSubType_DynamicsProcessor， 主 
要 作用 是 当 声 音 较 小 的 时 候 可 以 提高 声音 的 能 量 ， 当 声音 的 能 量 超过 了 
设置 的 冰 值 时 ， 可 以 降低 声音 的 能 量 ， 当 然 应 合理 地 设置 作用 时 间 、 释 
以 及 触发 值 ， 使 得 最 终 可 以 将 声音 在 时 域 上 的 能 量 压缩 到 一 定 范 
之 内 。 


混 响 效果 器 : 子 类 型 是 kAudioUnitSubType_Reverb2， 对 于 人 声 处 
理 来 讲 这 是 非常 重要 的 效果 器 ， 可 以 想象 自己 身 处 在 一 个 空房 子 中 ， 如 
末 有 非常 多 的 反射 声 和 原始 声音 登 加 在 一 起 ， 那 么 从 听 感 上 可 能 会 更 有 
震撼 力 ， 但 是 同时 原始 声音 也 会 变 得 更 加 模糊 ， 原 始 声 音 的 一 些 细 市 会 
补 庶 盖 控 ， 所 以 混 响 设置 的 大 或 者 小 对 于 不 同 的 人 来 讲 会 很 不 一 致 ， 可 
以 根据 自己 的 喜好 来 进行 设置 。 


Effect Unit 下 最 常 使 用 的 就 是 上 述 三 种 效果 器 ， 当 然 其 下 还 有 很 多 
种 子 类 型 的 效果 器 ， 像 高 通 (High Pass) 、 低 通 (Low Pass) 、 带 通 
































(Band Pass) 、 延 迟 (Delay) 、 压 限 〈Limiter) 等 效果 器 ， 大 家 可 以 
自行 尝试 使 用 一 下 ， 感 受 一 下 各 自 的 效果 。 


(2) Mixer Units 


类 型 是 kAudioUnitType_Mixer， 主 要 提供 Mix 多 路 声音 的 功能 。 其 
子 类 型 及 用 途 如 下 。 


:3D Mixer: 该 效果 器 在 移动 设备 上 是 无 法 使 用 的 ， 仅 仅 在 OS X 上 
可 以 使 用 ， 所 以 这 里 不 做 介绍 。 


.MultiChannelMixer: 子 类 型 是 
kAudioUnitSubType_MultiChannelMixer， 该 效果 器 将 是 本 书 重 点 介绍 的 
对 象 ， 它 是 多 路 声音 泥 音 的 效果 器 ， 可 以 接收 多 路 音频 的 输入 ， 还 可 以 
分 别 调整 每 一 路 音频 的 增益 与 开关 ， 并 将 多 路 音频 合并 成 一 路 ， 访 效果 
器 在 处 理 音频 的 图 状 结构 中 非常 有 用 。 


(3) LO Units 











类 型 是 kAudioUnitType_Output， 它 的 用 途 束 像 其 分 类 的 名 字 一 样 ， 
主要 提供 的 就 是 VO 的 功能 。 其 子 类 型 及 用 途 说 明 如 下 。 


:RemoteIlO: 子 类 型 是 kAudioUnitSubType_RemoteIO， 从 名 字 上 也 
可 以 看 出 ， 这 是 用 来 采集 音频 与 播放 音频 的 ， 其 实 当 开发 者 的 应 用 场景 
中 要 使 用 麦 元 风 及 扬声器 的 时 候 会 用 到 该 AudioUnit。 


-Generic ”Output: 子 类 型 是 kAudioUnitSubType_GenericOutput， 当 
开发 者 需要 进行 离线 处 理 ， 或 者 说 在 AUGraph 中 不 使 用 Speaker( 扬 声 
器 ) 来 驱动 整个 数据 流 ， 而 是 希望 使 用 一 个 输出 (可 以 放 入 内 存 队列 或 
者 进行 磁盘 IO 操作 ) 来 驱动 数据 流 时 ， 就 使 用 该 子 类 型 。 





(4) Format Converter Units 


类 型 是 kAudioUnitType_FormatConverter， 主 要 用 于 提供 格式 转换 
的 功能 ， 比 如 : 采样 格式 由 Float 到 SInt16 的 转换 、 交 错 和 平 铺 的 格式 转 
换 、 单 双 声 道 的 转换 等 ， 其 子 类 型 及 用 途 说 明 如 下 。 


.AUConverter: 子 类 型 是 kAudioUnitSubType_AUConverter， 它 将 是 
本 书 要 重点 介绍 的 格式 转换 效果 器 ， 当 某 些 效果 器 对 输入 的 音频 格式 有 


明确 的 要 求 时 《〈 比 如 3D Mixer Unit 束 必须 使 用 UInt16 格 式 的 sample) ， 
或 者 开发 者 将 首 频 数据 输入 给 一 些 其 他 的 编码 器 进行 编码 ， 又 或 者 开发 
者 想 使 用 SInt16 格 式 的 PCM 裸 数据 在 其 他 CPU 上 进行 音频 算法 计算 等 的 
场景 下 ， We 下 面 来 看 一 个 比较 典型 的 
场景 ， 我 们 上 自 定 义 一 个 音频 播放 器 《代码 仓库 中 的 AudioPlayer 项 目 ) ， 
由 FFmpeg 解 码 出 来 的 PCM 数 据 是 SInt16 格 式 的 ， 因 此 不 能 直接 输送 给 
RemoteIO Unit 进行 播放 ， 所 以 需要 构建 一 个 ConvertNode 将 SInt16 格 式 
表示 的 数据 转换 为 Float32 格 式 表示 的 数据 ， 然 后 再 输送 给 RemoteIO 
Unit， 最 终 才 能 正常 播放 出 来 。 

“Time Pitch: 子 类 型 Ko ni NewTimePitch， 
变调 效 采 器 器 ， 这 是 一 个 很 有 意思 的 效果 器 ， 可 以 对 声音 的 音 高 、 速 度 


行 调整 ， 像 会 说 话 的 Tom 猫 ”类似 的 应 用 区 景 就 可 以 合用 这 个 履 果 吕 来 
实现 。 








(5) Generator Units 


类 型 是 kAudioUnitType_Generator， 在 开发 中 我 们 经 常 使 用 它 来 提 
供 播 放 器 的 功能 。 其 子 类 型 及 用 途 说 明 如 下 。 


.AudioFilePlayer: 子 类 型 是 kAudioUnitSubType_AudioFilePlayer， 
在 AudioUnit 里 面 ， 如 果 我 们 的 输入 不 是 麦 列 风 ， 而 希望 其 是 一 个 媒体 
文件 ， 当 然 ， 也 可 以 类 似 于 代码 仓库 中 的 AudioPlayer 项 目 上 自行 解码 ， 转 
换 之 后 将 数据 输送 给 RemoteIO Unit 播 放出 来 ， 但 是 其 实 还 有 一 种 更 加 简 
单 、 方 便 的 方式 ， 那 就 是 使 用 AudioFilePlayer 这 个 AudioUnit， 可 以 参考 
代码 仓库 中 的 AUPlayer 项 目 ， 该 项 目 就 是 利用 AudioFilePlayer 作 为 输入 
数据 源 来 提供 数据 的 。 需 要 注意 的 是 ， 必 须 在 初始 化 AUGraph 之 后 ， 再 
去 配置 AudioFilePlayer 的 数据 源 以 及 播放 范围 等 属性 ， 否 则 就 会 出 现 错 
误 ， 其 实数 据 源 还 是 会 调用 AudioFile 的 解码 功能 ， 将 媒体 文件 中 的 压缩 
数据 解压 成 为 PCM 裸 数据 ， 最 终 再 交 给 AudioFilePlayer Unit 进 行 后 续 处 
理 。 





5. 构 造 一 个 AUGraph 


实际 的 K 歌 应 用 场景 ， 会 对 用 户 发 出 的 声音 进行 处 理 ， 并 且 立 即 给 
用 户 一 个 耳 返 《〈 在 50ms 之 内 将 声音 输出 到 耳机 中 ， 让 用 户 可 以 听 到 ) 。 
那么 如 何 让 RemoteIOUnit 利 用 老 殉 风采 集 出 来 的 声音 ， 经 过 中 间 效果 器 
的 处 理 ， 最 终 输 出 到 Speaker 中 播放 给 用 户 呢 ? 下 面 束 来 介绍 一 下 如 何 


以 AUGraph 的 方式 将 声音 采集 、 声 音 处 理 以 及 声音 输出 的 整个 过 程 管 理 
起 来 。 先 来 看 一 下 图 4-3。 


如 图 4-3 所 示 ， 首 先 要 知道 数据 可 以 在 通道 中 传递 是 由 最 右 端 
Speaker (RemoteIO Unit) 来 驱动 的 ， 它 会 同 其 前 一 级 一 一 AUNode 要 数 
据 ， 然 后 它 的 前 一 级 会 继续 同上 一 级 节点 要 数据 ， 并 最 终 从 
RemoteIOUnit 的 Element1 〈 即 麦克 风 ) 中 要 数据 ， 这 样 就 可 以 将 数据 按 
照相 反 的 方 回 一 级 一 级 地 传递 下 去 ， 最 终 传递 到 RemoteIOUnit 的 
Element0《 即 Speaker) 并 播放 给 用 户 听 到 。 当 然 你 可 能 会 想到 离线 处 理 
的 时 候 应 该 由 谁 来 进行 驱动 呢 ? 其 实在 进行 离线 处 理 的 时 候 应 该 使 用 
Mixer Unit 大 类 型 下 面子 类 型 为 Generic Output 的 AudioUnit 来 做 张 动 端 。 
那么 这 些 AudioUnit 或 者 说 AUNode 是 如 何 进行 连接 的 呢 ? 有 两 种 方式 ， 
第 一 种 方式 是 直接 将 AUNode 连 接 起 来 ;第 二 种 方式 是 通过 回调 的 方式 
将 两 个 AUNode 连 接 起 来 。 下 面 就 来 分 别 介绍 这 两 种 方式 。 
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(1) 直接 连接 的 方式 





AUGraphConnectNodeInput(mPlayerGraph, mpPlayerNode, 0, mpPlayerIONode, 0); 





以 上 是 本 节 AUPlayer 实 例 中 的 一 段 代 码 ， 目 标 是 将 Audio File Player 
Unit 和 RemoteIO Unit 直 接连 接 起 来 ， 当 RemoteIO Unit 需 要 播放 数据 的 时 
候 ， 就 会 调用 AudioFilePlayer Unit 来 获取 数据 ， 这 样 就 把 这 两 个 
AudioUnit 连 接 起 来 了 。 





(2) 回调 的 方式 





AURenderCallbackStruct renderProc; 

renderProc.inputProc = &inputAvailableCallback; 
renderProc.inputProcRefCon = (_ bridge void *)self; 
AUGraphSetNodeInputCcallback(mGraph, ioNode, 0, &finalRenderProc); 








这 段 代 码 首先 是 构造 一 个 AURenderCallback 的 结构 体 ， 并 指定 一 个 
回调 函数 ， 然 后 设置 给 RemoteIO Unit 的 输入 端 ， 当 RemoteIO Unit 需 要 
数据 输入 的 时 候 就 会 回调 该 回调 函数 ， 回 调 函 数 代码 如 下 : 





static OSStatus renderCallback(void *inRefCon, AudioUnitRenderActionFlags 
*ioActionFlags, const AudioTimeStamp *inTimeStamp, UINt32 
inBusNumber, UInt32 inNumberFrames, AudioBufferList *ioData) 
{ 
OSStatus result = noErr; 
unsafe_unretained AUGraphRecorder *THIS = (bridge 
AUGraphRecorder *)inRefCon; 
AudioUnitRender (THIS->mixerUnit, ioActionFlags, inTimeStamp, 0, 
inNumberFrames, ioData); 
result = ExtAudioFilewriteAsync(THIS->finalAudioFile, inNumberFrames, 
ioData); 
return result,; 








该 回调 函数 主要 完成 两 件 事 情 : 第 一 件 事 情 是 去 Mixer Unit 里 面 要 
数据 ， 通 过 调用 AudioUnitRender 的 方式 来 驱动 Mixer Unit 获 取 数 据 ， 得 
到 数据 之 后 放 入 ioData 中 ， 从 而 填充 回调 方法 中 的 参数 ， 将 Mixer Unit 与 
RemoteIlO ” Unit 连接 了 起 来 ， 第 二 件 事 情 则 是 利用 ExtAudioFile 将 这 上 段 声 
音 编码 并 写 入 本 地 倒 盘 的 一 个 文件 中 。 


本 节 的 代码 仓库 中 包含 了 两 个 实例 项 目 : 一 个 是 AUPlayer， 利 用 
AudioFilePlayer Unit 和 RemoteIO Unit 做 了 一 个 最 简单 的 播放 器 ， 另 外 一 
个 是 AudioPlayer， 它 会 利用 FFmpeg 进 行 解码 操作 ， 解 码 出 来 的 是 SInt16 
格式 表示 的 数据 ， 然 后 再 通过 一 个 ConvertNode 将 其 转换 为 Float32 格 式 
表示 的 数据 ， 最 终 输 送 给 RemoteIO Unit 进 行 播放 。 将 这 两 个 项 目 对 比 来 
看 ， 第 二 种 方式 十 分 不 便 ， 其 实 以 第 二 种 方式 实现 播放 占有 两 个 目的 : 
其 一 是 为 了 让 大 家 体验 在 开发 ijOS 平 台 的 程序 时 ， 优 先 使 用 iOS 平 台 自 身 
提供 的 API， 了 解 它 们 的 便捷 性 与 重要 性 ;其 二 是 为 了 给 后 续 的 视频 播 
放 器 项 目 打下 基础 。 大 家 可 以 好 好 学 习 一 下 这 两 个 实例 ， 充 分 感受 一 下 
iOS 平 台 为 开发 者 提供 了 多 么 强大 的 多 媒体 开发 API。 











4.2 ” Android 平台 的 音频 泻 染 


Android 的 SDK《〈 指 的 是 Java 层 提供 的 API， 对 应 的 NDK 是 Native 层 
提供 的 API， 即 C 或 者 C++ 层 可 以 调用 的 API) 提供 了 3 套 音频 播放 的 
API， 分 别 是 : MediaPlayer、SoundPool 和 AudioTrack。 这 三 个 API 的 使 
用 场景 各 不 相同 ， 人 简单 来 说 具体 如 下 。 


MediaPlayer: 适合 在 后 台 长 时 间 播 放 本 地 首 乐 文件 或 者 在 线 的 流 
式 媒体 文件 ， 它 的 封装 层次 比较 高 ， 使 用 方式 比较 简单 。 


“SoundPool: 适合 播放 比较 短 的 首 频 片段 ， 比 如 游戏 声 首 、 按 键 声 
首 、 铃 声 片 段 等 ， 它 可 以 同时 播放 多 个 首 频 。 


.AudioTrack: 适合 低 延 迟 的 播放 ， 是 更 加 底层 的 API， 提 供 了 非常 
强大 的 控制 能 力 ， 适 合流 媒体 的 播放 等 场景 ， 由 于 其 属于 底层 API， 所 
以 需要 结合 解码 器 来 使 用 。 


Android 的 NDK 提 供 了 OpenSL ES 的 C 语 言 的 接口 ， 可 以 提供 非常 强 
大 的 首 效 处 理 、 低 延 时 播放 等 功能 ， 比 如 在 Android 手 机 上 可 实现 实时 
耳 返 的 功能 。 本 书 的 项 目 肥 例 中 会 更 多 地 使 用 到 底层 API 的 功能 ， 下 面 
就 来 详细 地 介绍 AudioTrack 与 OpenSL ES 这 两 个 API 的 使 用 。 




















4.2.1 AudioTrack 的 使 用 


由 于 AudioTrack 是 Android SDK 层 提供 的 最 底层 的 音频 播放 APT1， 
此 只 允许 输入 裸 数 据 。 和 MediaPlayer 相 比 ， 对 于 一 个 压缩 的 音频 文件 
(比如 MP3、AAC 等 文件 ) ， 它 需要 上 自行 实现 解码 操作 和 缓冲 区 控制 。 
因为 这 里 只 涉及 AudioTrack 的 音频 演 染 端 (解码 部 分 已 经 在 前 面 章节 中 
介绍 过 了 ， 对 于 缓冲 区 的 控制 机 制 ， 后 续 章 节 将 会 详细 讲解 ) ， 所 以 本 
节 只 介绍 如 何 使 用 AudioTrack 泻 染 音频 PCM 数 据 。 

首先 来 看 一 下 AudioTrack 的 工作 流程 ， 具 体 如 下 。 

1) 根据 音频 参数 信息 ， 配 置 出 一 个 AudioTrack 的 实例 。 

2) 调用 play 方 法 ， 将 AudioTrack 切 换 到 播放 状态 。 

3) 启动 播放 线程 ， 循 环 向 AudioTrack 的 绥 冲 区 中 写 入 音频 数据 。 


4) 当 数 据 写 完 或 者 俘 止 播放 的 时 候 ， 停 止 播放 线程 ， 并 且 释 放 所 


根据 AudioTrack 的 上 述 工作 流程 ， 本 节 将 以 4 个 小 部 分 分 别 介绍 
个 流程 的 详细 步 又。 


1. 配 置 AudioTrack 


先 来 看 一 下 AudioTrack 的 参数 配置 ， 要 想 构造 出 一 个 AudioTrack 类 
型 的 实例 ， 必 须 先 了 解 其 构造 函数 原型 ， 代 码 如 下 所 示 : 

















本 





public AudioTrack(int streamType, int sampleRateInHz, int channelConfig, 
int audioFormat, int bufferSizeInBytes, int mode); 





其 中 构造 函数 的 参数 说 明 如 下 。 


streamType，Android 手 机 上 提供 了 多 重音 频 管 理 策略 (读者 按 一 
下 手机 侧 边 的 按键 ， 可 以 看 到 有 多 个 音量 管理 ， 这 其 实 就 是 不 同音 频 策 
略 的 音量 控制 展示 ) ， 当 系统 有 多 个 进程 需要 播放 音频 的 时 候 ， 管 理 策 
略 会 决定 最 终 的 呈现 效果 ， 该 参数 的 可 选 值 将 以 常量 的 形式 定义 在 类 











AudioManager 中 ， 主 要 包括 以 下 内 容 。 























STREAM_VOCIE_CALL: 电话 声音 
STREAM_SYSTEM: 系统 声音 
STREAM_RING: 铃声 
STREAM_MUSCI: 音乐 声 
STREAM_ALARM: 警告 声 
STREAM_NOTIFICATION: 通知 声 




















sampleRateInHz， 采 样 率 ， 即 播放 的 音频 每 秒 钟 会 有 多 少 次 采样 ， 
可 选用 的 采样 频率 列表 为 : 8000、16000、22050、24000、32000、 
44100、48000 等 ， 大 家 可 以 根据 自己 的 应 用 场景 进行 合理 的 选择 。 


channelConfig， 声 道 数 (通道 数 ) 的 配置 ， 可 选 值 以 常量 的 形式 
配置 在 类 AudioFormat 中 ， 常 用 的 是 CHANNEL_IN_MONO ( 单 声 
道 ) 、CHANNEL_IN_STEREO( 双 声 道 ) ， 因 为 现在 大 多 数 手机 的 麦 
克 风 都 是 伪 立 体 声 的 采集 ， 为 了 性 能 考虑 ， 笔 者 建议 使 用 单 声 道 进行 采 
集 ， 而 转变 为 立体 声 的 过 程 可 以 在 声音 的 特效 处 理 阶 段 来 完成 。 


audioFormat， 该 参数 是 用 来 配置 “数据 位 宽 ”* 的 ， 即 采样 格式 ， 可 
选 值 以 常量 的 形式 定义 在 类 AudioFormat 中 ， 分 别 为 
ENCODING PCM._ 16BIT (16bit) 、ENCODING PCM_ 8BIT (8bit) ， 
注意 ， 前 者 是 可 以 兼容 所 有 Android 手 机 的 。 


:bufferSizeInBytes， 其 配置 的 是 AudioTrack 内 部 的 音频 缓冲 区 的 大 
小 ，AudioTrack 类 提供 了 一 个 帮助 开发 者 确定 bufferSizeInBytes 的 函数 ， 
其 原型 具体 如 下 : 








int getMinBufferSize(int sampleRateInHz, int channelConfig, int audioFormat) 





-在 实际 开发 中 ， 强 烈 建 议 由 该 函数 计算 出 需要 传 入 的 
bufferSizeInBytes， 而 不 是 自己 手动 计算 。 


-mode，AudioTrack 提 供 了 两 种 播放 模式 ， 可 选 的 值 以 常量 的 形式 
定义 在 类 AudioTrack 中 ， 一 个 是 MODE_STATIC， 需 要 一 次 性 将 所 有 的 
数据 都 写 入 播放 缓冲 区 中 ， 简 单 高 效 ， 通 常用 于 播放 铃声 、 系 统 提醒 的 
音频 片段 ， 另 一 个 是 MODE_STREAM， 需 要 按照 一 定 的 时 间 间 隔 不 间 
断 地 写 入 音频 数据 ， 理 论 上 它 可 以 应 用 于 任何 音频 播放 的 场景 。 





2. 将 AudioTrack 切 换 到 播放 状态 


首先 判断 AudioTrack 实 例 是 否 初始 化 成 功 ， 如 果 当 前 状态 处 于 初始 
化 成 功 的 状态 ， 那 么 就 调用 它 的 play 方 法 ， 并 切换 到 播放 状态 ， 代 码 如 
小 3 





If (null != audioTrack && audioTrack.getState() != AudioTrack.STATE_UNINITIA 


audioTrack.play(); 





3. 开 局 播放 线程 
首先 创建 一 个 播放 线程 ， 代 码 如 下 : 





playerThread = new Thread(new PlayerThread(), "playerThread"); 
playerThread.start(); 





接 下 来 看 看 该 线程 中 执行 的 任务 ， 代 码 如 下 : 





class PlayerThread implements Runnable { 
private short[] samples; 
public void run() 
samples = new short[minBufferSizel]; 
while(!isStop) { 
int actualSize = decoder.readSamples(samples); 
audioTrack.write(samples, actualSize); 
} 
} 
} 





线程 中 的 minBufferSize 是 在 初始 化 AudioTrack 的 时 候 获 得 的 缓冲 区 
大 小 ， 会 对 其 进行 换算 ， 即 以 2 个 字 节 表示 一 个 采样 的 大 小 ， 也 就 是 2 倍 
的 关系 《因为 初始 化 的 时 候 是 以 字 节 为 单位 的 ) ; decoder 是 一 个 解码 
器 ， 假 设 已 经 初始 化 成 功 ， 最 后 将 调用 write 方法 把 从 解码 器 中 获得 的 
PCM 和 采样 数 据 写 入 AudioTrack 的 缓冲 区 中 ， 注 意 此 方法 是 阻塞 的 方法 ， 
比如 : 一 般 要 写 入 200ms 的 音频 数据 需要 执行 接近 200ms 的 时 间 。 


4. 销 毁 资 源 
首先 停止 AudioTrack， 代 码 如 下 : 














if (null != audioTrack && audioTrack .getState() != AudioTrack,STATE_UNINITIA 


audioTrack.stop(); 





然后 停止 线程 : 





isStop = true,; 

if (null != playerThread) { 
playerThread.join(); 
playerThread = null; 





最 后 释放 AudioTrack: 





audioTrack.release( ); 





具体 实例 请 参看 代码 仓库 中 的 AudioPlayer 项 目的 AudioTrack 部 分 ， 
需要 把 项 目 中 resource 目 录 下 的 首 频 文件 放 入 目标 设备 的 sdcard 根 目录 
下 


4.2.2 OpenSL ES 的 使 用 


OpenSL ES 全 称 为 Open Sound Library for Embedded Systems， 即 蔡 
入 式 音 频 加 速 标 准 。OpenSL ES 是 无 授权 这 、 蜂 平台 、 针 对 磐 入 式 系统 
精心 优化 的 硬件 首 频 加 速 API。 它 为 租 入 式 移动 多 媒体 设备 上 的 本 地 应 
用 程序 开发 者 提供 了 标准 化 、 高 性 能 、 低 响应 时 间 的 音频 功能 实现 方 
法 ， 同 时 还 实现 了 软 / 硬 件 音频 性 能 的 直接 跨 平 台 部 署 ， 不 仅 降 低 了 执 
行 难度 ， 而 且 促进 了 高 级 音频 市 场 的 发 展 。 


图 4-4 摘 述 了 OpenSL ES 的 架构 ， 在 Android 中 ，High Level Audio 
Libs 是 音频 Java 层 API 输 入 输出 ， 属 于 高 级 API， 相 对 来 说 ，OpenSL ES 
则 是 比较 低层 级 的 API， 属 于 C 语 言 API。 在 开发 中 ， 一 般 会 使 用 高 级 
API， 除 非 遇 到 性 能 瓶 陆 ， 如 语音 实时 聊天 、3D Audio、 某 些 Effects 
等 ， 开 发 者 可 以 直接 通过 C/C++ 开 发 基于 OpenSL ES 音频 的 应 用 。 需 要 
声明 的 是 : 本 书 中 使 用 的 是 OpenSL ES 1.0.1 版 本 ， 这 套 API 是 在 Android 
系统 版 本 2.3 之 后 才 文 持 的 ， 并 且 有 一 些 高 级 功能 也 会 受到 一 些 限制 比 
如 解码 AAC 是 在 Android 系 统 版 本 4.0 以 上 才 支 持 的 。 
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在 使 用 OpenSL ES 的 API 之 前 ， 需 要 引入 OpenSL ES 的 头 文 件 ， 代 码 


如 下 : 





#include <SLES/OpenSLES.h> 
#include <SLES/OpenSLES Android.h> 


由 于 是 在 Native 层 使 用 该 特性 ， 所 以 要 在 Makefile 文 件 Android.mk 中 
增加 链接 选项 ， 以 便 在 链接 阶段 使 用 到 系统 提供 的 OpenSL ES 的 so 库 : 


LOCAL_LDLIBS += -LOpenSLES 





前 文 也 提 到 了 OpenSL ES 提供 的 是 基于 C 语 言 的 API， 但 它 是 基于 对 
象 和 接口 的 方式 提供 的 ， 会 采用 面向 对 象 的 思想 开发 API。 因 此 ， 这 里 
需要 先 来 了 解 一 下 OpenSL ES 中 对 象 和 接口 的 概念 。 


对象 : 对 象 是 对 一 组 资源 及 其 状态 的 抽象 ， 每 个 对 象 都 有 一 个 在 
其 创建 时 指定 的 类 型 ， 类 型 决定 了 对 象 可 以 执行 的 任务 集 ， 对 象 有 反 类 
似 于 C++ 中 类 的 概念 。 


-接口 : 接口 是 对 象 提供 的 一 组 特征 的 抽象 ， 这 些 抽象 会 为 开发 者 
人 
ID 来 标识 。 


需要 重点 理解 的 是 ， 一 个 对 象 在 代码 中 其 实 是 没有 实际 的 表示 形式 
的 ， 可 以 通过 接口 来 改变 对 象 的 状态 以 及 使 用 对 象 提 供 的 功能 。 对 象 可 
以 有 一 个 或 者 多 个 接口 的 实例 ， 但 是 接口 实例 肯定 只 属于 一 个 对 象 。 如 
果 读 者 读 到 此 处 已 经 完全 理解 了 OpenSL ES 中 对 象 和 接口 的 概念 ， 那 么 
就 继续 癌 下 来 看 看 在 代码 实例 中 是 如 何 使 用 它们 的 。 


上 面 也 提 到 过 ， 对 象 是 没有 实际 的 代码 表示 形式 的 ， 对 象 的 创建 也 
是 通过 接口 来 完成 的 。 通 过 获取 对 象 的 方法 来 获取 出 对 象 ， 进 而 可 以 访 
问 对 象 的 其 他 接口 方法 或 者 改变 对 象 的 状态 ， 有 具体 的 执行 步骤 如 下 。 

1) 创建 一 个 引擎 对 象 接 口 。 引 擎 对 象 是 OpenSL ES 提供 API 的 唯一 


入 口 ， 开 发 者 需要 调用 全 局 函数 slCreateEngine 来 获取 SLObjectItf 类 型 的 
引擎 对 象 接口 : 






































SLObjectItf engineObject; 


SLEngineoption engineoptions[] = { { (SLuint32) SL_ENGINEOPTION_THREADSAFE， 
(SLuint32) SL_BOOLEAN_TRUE } }; 
slCreateEngine(&engineObject, ARRAY_LEN(engineOptions), engineOptions, ©0, 0, 











2) 实例 化 引擎 对 象 ， 需 要 通过 在 第 1 步 得 到 的 引擎 对 象 接口 来 实例 
化 引擎 对 象 ， 否 则 会 无 法 使 用 这 个 对 象 ， 其 实在 OpenSL ES 的 使 用 中 ， 
任何 对 象 都 需要 使 用 接口 来 进行 实例 化 ， 所 以 这 里 也 需要 封装 出 一 个 实 
例 化 对 象 的 方法 ， 代 码 如 下 ; 





RealizeObject(engineOobject); 
SLresult RealizeObject(SLObjectItf object) { 

return (*object)->Realize(object, SL_BOOLEAN_ FALSE); 
}; 





3) 获取 这 个 引擎 对 象 的 方法 接口 ， 通 过 GetInterface 方 法 ， 使 用 第 2 
步 已 经 实例 化 好 了 的 对 象 ， 获 取 对 应 的 SLEngineItf 类 型 的 对 象 接口 ， 该 
接口 将 会 是 开发 者 使 用 所 有 其 他 API 的 入 口 : 





SLEngineItf engineEngine; 
(*engineobject)->GetInterface(engineobject，SL_IID_ENGINE，&engineEngine ) ， 








4) 创建 需要 的 对 象 接口 ， 通 过 调用 SLEngineItf 类 型 的 对 象 接 口 的 
CreateXXX 方 法 返回 新 的 对 象 的 接口 ， 比 如 ， 调 用 CreateOutputMix 方 法 
来 获取 一 个 outputMixObject 接 口 ， 或 者 调用 CreateAudioPlayer 方 法 来 获 
取 一 个 audioPlayerObject 接 口 。 由 于 篇 幅 有 限 ， 这 里 仅仅 列 出 创建 
人 的 接口 代码 ， 播 放 器 接口 的 获取 可 以 参考 代码 仓库 中 的 








SLObjectItf outputMixObject; 
(*engineEngine)->CreateOutputMix(engineEngine, &outputMixObject, 0, 0, 0); 








5) 实例 化 新 的 对 象 ， 任 何 对 象 接口 获取 出 来 之 后 ， 都 必须 要 实例 
化 ， 与 第 2 步 操作 其 实 是 一 样 的 : 





realizeObject(outputMixObject); 
realizeObject(audioPplayerObject); 





6) 对 于 东 些 比较 复杂 的 对 象 ， 需 要 获取 新 的 接口 来 访问 对 象 的 状 


态 或 者 维护 对 象 的 状态 ， 比 如 在 播放 右 AudioPlayer 或 录 首 器 
AudioRecorder 中 注册 一 些 回调 方法 等 ， 代 码 如 下 : 





SLPlayItf audioPlayerPlay; 

(*audioPlayerObject)->GetInterface(audioplayerObject, SL_IID PLAY, 
&audioPlayerPlay); 

// 设置 播放 状态 

(*audioPlayerPlay)->SetPlayState(audioPlayerPlay, SL_PLAYSTATE_ PLAYING); 

// 设置 暂停 状态 

(*audioPlayerPlay)->SetPlayState(audioPlayerPlay, SL_PLAYSTATE_ PAUSED); 









































7) 待 使 用 完 该 对 象 之 后 ， 要 记得 调用 Destroy 方 法 来 销毁 对 象 以 及 
相关 的 资源 : 





destroyobject(audioPlayerobject ) 
destroyobject(outputMixobject ) ， 
void Audiooutput: :destroyobject(SLObjectItf& object) { 
if (90 != object) 
(*object)->Destroy(object); 
object = 0; 





使 用 OpenSL ES 实现 一 个 播放 媒体 文件 的 功能 ， 即 一 个 音频 播放 器 
的 痊 染 端 逻 辑 的 实例 ， 请 读者 查看 代码 仓库 中 的 AudioPlayer 项 目的 
OpenSL ES 部 分 。 注 意 ， 需 要 把 resource 目 录 下 的 音频 文件 放 入 运行 的 
sdcard 根 目录 下 。 


4.3 ”视频 泻 染 
4.3.1 OpenGL ES 介绍 


OpenGL (Open Graphics Library) 定义 了 一 个 跨 编程 语言 、 跨 平台 
编程 的 专业 图 形 程序 接口 。 可 用 于 二 维 或 三 维 图 像 的 处 理 与 演 染 ， 它 是 
一 个 功能 强大 、 调 用 方便 的 底层 图 形 库 。 对 于 骸 入 式 的 设备 ， 其 提供 了 
OpenGL ES (OpenGL for Embedded Systems) 版 本 ， 该 版 本 是 针对 手 
机 、Pad 等 能 入 式 设备 而 设计 的 ， 是 OpenGEL 的 一 个 子 集 。 到 目前 为 止 ， 
OpenGL 已 经 经 历 过 很 多 版 本 的 迭代 与 更 新 ， 最 新 版 本 为 3.0， 而 使 用 最 
广泛 的 还 是 OpenGL ES 2.0 版 本 。 本 书 所 讲解 的 案例 就 是 基于 OpenGL 
ES ”2.0 接 口 进行 编程 并 实现 图 像 的 处 理 与 泻 染 的 。 本 书 只 讨论 OpenGL 
ES ”2D 部 分 的 内 容 ， 不 涉及 3D 部 分 的 介绍 ， 因 为 在 视频 应 用 这 一 场景 
下 ， 绝 大 部 分 都 是 使 用 2D 的 处 理 与 演 染 ， 所 以 只 需要 具备 2D 部 分 的 知 
识 就 可 以 完成 绝 大 部 分 的 工作 了 。 


由 于 OpenGL 是 基于 路 平台 的 设计 ， 所 以 在 每 个 平台 上 都 要 有 它 的 
具体 实现 ， 即 要 提供 OpenGL ES 的 上 下 文 环境 以 及 窗口 的 管理 。 在 
OpenGEL 的 设计 中 ，OpenGL 是 不 负 贡 管理 窗口 的 ， 窗 口 的 管理 将 交 由 各 
个 设备 自己 来 完成 ， 上 下 文 环境 也 是 一 样 的 ， 其 在 各 个 平台 上 都 有 自己 
的 实现 。 具 体 来 讲 ， 在 iOS 平 台 上 使 用 EAGL 提 供 本 地 平台 对 OpenGL ES 
的 实现 ， 在 Android 平 台 上 使 用 EGL 提 供 本 地 平台 对 OpenGL ES 的 实现 。 
所 以 如 果 想 要 OpenGL 程 序 运 行 在 多 个 平台 上 ， 那 么 也 要 为 每 个 平台 编 
写 自 己 的 上 下 文 环境 的 实现 。 


这 里 需要 介绍 一 下 另外 一 个 库 一 ”libSDL， 它 可 以 为 开发 者 提供 面 
回 libSDEL 的 API 编 程 ，libSDL 内 部 会 解雇 多 个 平台 的 OpenGL 上 下 文 环境 
以 及 窗口 管理 问题 ， 开 发 者 只 需要 交叉 编译 这 个 库 到 各 自 的 平台 上 就 可 
以 做 到 只 写 一 份 代 码 即 可 运行 到 多 个 平台 。 其 中 FFmpeg 中 的 ffplay 这 一 
工具 就 是 基于 libSDL 进 行 开 发 的 。 但 是 对 于 移动 开发 者 来 讲 ， 这 样 就 会 
失去 一 些 更 加 灵活 的 控制 ， 甚 至 某 些 场景 下 的 功能 不 能 实现 ， 所 以 本 书 
不 会 基于 libSDL， 而 是 基于 每 个 平台 裸 用 上 自己 平台 的 API 来 提供 OpenGL 
ES 的 本 地 实现 。 


上 面 介 绍 了 OpenGL (ES) 是 什么 ， 下 面 再 来 介绍 一 下 
OpenGL (ES) 能 做 什么 。 其 实 从 名 字 上 就 可 以 看 出 来 ，OpenGL 主 要 是 






































做 图 形 图 像 处 理 的 库 ， 尤 其 是 在 移动 设备 上 进行 图 形 图 像 处 理 ， 它 的 性 
能 优势 更 能 体现 出 来 。 前 文 曾 提 到 过 最 主要 的 是 使 用 OpenGL ES 2.0 版 
本 进行 开发 工作 ， 若 要 使 用 OpenGL ”ES ”2.0 就 不 得 不 提 到 GLSL， 
GLSL (OpenGL Shading Language) 是 OpenGL 的 着 色 器 语言 ， 开 发 人 
员 利 用 这 种 语言 编写 程序 运行 在 GPU (Graphic Processor Unit， 图 形 图 
像 处 理 单元 ， 可 以 理解 为 是 一 种 高 并 发 的 运算 器 〉 上 以 进行 图 像 的 处 理 
或 泻 染 。GLSL 着 色 器 代码 分 为 两 个 部 分 ， 即 Vertex Shader (顶点 着 色 
器 ) 与 Fragment Shader《〈 上 元 着 色 器 ) 两 部 分 ， 分 别 完成 各 自在 
OpenGL 演 染 管线 中 的 功能 ， 有 具体 的 语法 与 流程 会 在 4.3.2 节 中 介绍 。 对 
于 OpenGL ES， 业 界 有 一 个 著名 的 开源 库 GPUImage， 它 的 实现 非常 优 
雅 ， 尤 其 是 在 iOS 平 台 上 实现 得 非常 完备 ， 不 仅 有 摄像 头 采 集 实时 泻 
染 、 视 频 播放 器 、 离 线 保存 等 功能 ， 更 有 强大 的 滤 镜 实现 。 在 
GPUImage 的 滤 镜 实现 中 ， 可 以 找到 大 部 分 图 形 图 像 处 理 Shader 的 实 
现 ， 包 括 : 亮度 、 对 比 度 、 饱 和 度 、 色 调 曲 线 、 白 平衡 、 灰 度 等 调整 颜 
色 的 处 理 ， 以 及 锐 化 、 高 斯 模糊 等 图 像 像 素 处 理 的 实现 等 ， 还 有 素描 、 
卡通 效果 、 浮 雕 效果 每 视觉 效果 的 实现 ， 最 后 还 有 各 种 混合 模式 的 实现 
等 。 当 然 ， 除 了 GPUImage 提 供 的 这 些 图 像 处 理 的 Shader 之 外 ， 开 发 者 
也 可 以 自己 实现 一 些 有 意思 的 Shader， 比 如 美 颜 滤 镑 效果 、 瘦 脸 效 果 以 
及 粒子 效果 等 。 


那么 如 何 利用 OpenGL 来 完成 上 面 所 述 的 工作 呢 ? 请 阅读 4.3.2 节 ， 
我 们 会 在 Android 和 iOS 平 台 上 分 别 实践 如 何 使 用 OpenGL 。 














4.3.2 ” OpenGL ES 的 实践 
1.0penGL 演 染 管线 


要 想 学 习 着 色 器 ， 并 理解 着 色 器 的 工作 机 制 ， 就 要 对 OpenGL 固 定 
的 泻 染 管线 有 深入 的 了 解 。 同 样 ， 先 来 统一 一 下 术语 。 


:几何 图 元 : 包括 点 、 直 线 、 三 角形 ， 均 是 通过 顶点 (vertex) 来 指 
定 的 。 








模型 根据 几何 图 元 创建 的 物体 。 
泻 染 : 计算 机 根据 模型 创建 图 像 的 过 程 。 


最 终 演 染 过 程 结束 之 后 ， 人 有 眼 所 看 到 的 图 像 就 是 由 屏 介 上 的 所 有 像 
素 点 组 成 的 ， 在 内 存 中 ， 这 些 像素 点 可 以 组 织 成 一 个 大 的 一 维 数 组 ， 
4 个 Byte 即 表示 一 个 像素 点 的 RGBA 数 据 ， 而 在 显卡 中 ， 这 些 像素 点 可 以 
组 织 成 帧 缓冲 区 〈EFrameBuffer) 的 形式 ， 帧 缓 神 区 保存 了 图 形 硬件 为 了 
控制 屏幕 上 所 有 像素 的 颜色 和 强度 所 需要 的 全 部 信息 。 理 解 了 帧 缓冲 区 
的 概念 ， 接 下 来 就 来 讨论 一 下 OpenGL 的 泻 染 管线 ， 这 部 分 内 容 对 于 
OpenGL 来 说 是 非常 重要 的 。 

那么 OpenGEL 的 演 染 管线 具体 是 做 什么 的 昵 ? 其 实 就 是 OpenGL 引 擎 
泻 染 图 像 的 流程 ， 也 就 是 说 OpenGL 引 擎 是 一 步 一 步 地 将 图 片 泻 染 到 屏 
幕 上 去 的 过 程 。 演 染 管线 分 为 以 下 几 个 阶段 。 

阶段 一 : 指定 几何 对 象 

所 谓 几 何 对 象 ， 束 是 上 面 说 过 的 几何 图 元 ， 这 里 将 根据 具体 执行 的 
指令 绘制 几何 图 元 。 比 如 ，OpenGL 提 供给 开发 者 的 绘制 方法 
glDrawArrays， 这 个 方法 里 面 的 第 一 个 参数 是 mode， 就 是 制定 绘制 方 
式 ， 可 选 值 有 以 下 几 种 。 


-GL_POINTS: 以 点 的 形式 进行 绘制 ， 通 常用 在 绘制 粒子 效果 的 场 

















景 中 


'GL_LINES: 以 线 的 形式 进行 绘制 ， 通 常用 在 绘制 直线 的 场景 中 。 


-GL_TRIANGLE_STRIP: 以 三 角形 的 形式 进行 绘制 ， 所 有 二 维 图 
像 的 泻 染 都 会 使 用 这 种 方式 。 


有 具体 选用 哪 一 种 绘制 方式 决定 了 OpenGL 泻 染 管线 的 第 一 阶段 应 如 
何 去 绘 制 几何 图 元 ， 所 以 这 就 是 第 一 阶段 指定 的 几何 对 象 。 


阶段 二 顶点 处 理 


不 论 以 上 的 几何 对 象 是 如 何 指定 的 ， 所 有 的 几何 数据 都 将 会 经 过 这 
个 阶段 。 这 个 阶段 所 做 的 操作 就 是 ， 根 据 模型 视图 和 投影 窍 阵 进行 变换 
来 改变 项 点 的 位 置 ， 根 据 纹理 坐标 与 纹理 矩阵 来 改变 纹理 坐标 的 位 置 ， 
如 果 涉 及 三 维 的 泻 染 ， 那 么 这 里 还 要 处 理光 照 计 算 和 法 线 变 换 (本 书 不 
会 涉及 三 维 的 泻 染 ) 。 这 里 的 输出 是 以 gl]_Position 来 表示 具体 的 顶点 位 
置 的 ， 如 果 是 以 点 (GL_POINTS) 来 绘制 几何 图 元 ， 那 么 还 应 该 输出 
gl_PointSize。 


阶段 三 ， 图 元 组 装 


在 经 过 阶段 二 的 顶点 处 理 操作 之 后 ， 不 论 是 模型 的 顶点， 还 是 纹理 
坐标 都 是 已 经 确定 好 了 的 。 在 这 个 阶段 ， 顶 点 将 会 根据 应 用 程序 送 往 图 
元 的 规则 (如 GL _POINTS、GL TRIANGLES 等 ) ， 将 纹理 组 装 成 图 
bo 


阶段 四 : 顶 格 化 操作 

由 阶段 三 传递 过 来 的 图 元 数据 ， 在 此 将 会 被 分 解 成 更 小 的 单元 并 对 
应 于 帧 缓冲 区 的 各 个 像素 。 这 些 单 元 称 为 片 元 ， 一 个 片 元 可 能 包含 窗口 
颜色 、 纹 理 坐 标 等 属性 。 片 元 的 属性 是 根据 顶点 坐标 利用 插值 来 确定 
的 ， 这 其 实 就 是 栅 格 化 操作 ， 也 就 是 确定 好 每 一 个 片 元 是 什么 。 


通过 纹理 坐标 取得 纹理 〈texture) 中 相对 应 的 片 元 像素 值 
(texel) ， 根 据 自己 的 业务 处 理 《〈 比 如 提 亮 、 饱 和 度 调节 、 对 比 度 调 
节 、 高 斯 模糊 等 ) 来 变换 这 个 片 元 的 颜色 。 这 里 的 输出 是 
盟 _FragColor， 用 于 表示 修改 之 后 的 像素 的 最 终结 来。 


阶段 六 : 帧 缓冲 操作 














该 阶段 主要 执行 帧 缓冲 的 写 入 操作 ， 这 也 是 泻 染 管线 的 最 后 一 步 ， 
最 终 的 像素 值 写 到 帧 缓冲 区 中 。 
前 面 也 提 到 过 ，OpenGL ES 2.0 版 本 与 之 前 的 版 本 相 比 ， 更 出 色 的 
功能 就 是 提供 了 可 编程 的 着 色 器 来 代替 OpenGL ES 中 泻 染 管线 的 某 一 阶 
段 。 那 么 具体 是 哪 一 个 着 色 器 ， 又 可 以 蔡 换 泻 染 管线 的 哪 一 个 阶段 呢 ? 
具体 如 下 所 示 。 

.Vertex Shader 〈 顶 点 着 色 器 ) 用 来 蔡 换 顶点 处 理 阶 段 。 


:Fragment Shader( 片 元 着 色 器 ， 又 称 像素 着 色 器 ， 用 来 蔡 换 片 元 处 
理 阶 段 。 








到 Finish 和 glFlush 


提交 给 OpenGL 的 绘图 指令 并 不 会 马上 发 送 给 图 形 人 硬件 执行 ， 而 是 
放 到 一 个 缓冲 区 里 面 ， 等 待 缓冲 区 满 了 之 后 再 将 这 些 指令 发 送 给 图 形 硬 
件 执行 ， 所 以 指令 较 少 或 较 简 单 时 是 无 法 填 满 缓冲 区 的 ， 这 些 指令 上 自然 
不 能 马上 执行 以 达到 所 需要 的 效果 。 因 此 每 次 写 完 绘图 代码 ， 需 要 让 其 
立即 完成 效果 时 ， 开 发 者 都 需要 在 代码 后 面 添加 glFlush《〈) 或 
glFinish () 函数 。 


“glFlush () 的 作用 是 将 缓冲 区 中 的 指令 (无 论 是 否 为 满 ) 立刻 及 
送 给 图 形 人 硬件 执行 ， 友 送 完 立即 返回 。 


-glFinish ( ) 的 作用 也 古 将 缓冲 区 中 的 指令 (无论 是 否 为 满 ) 立刻 
发 进 给 区 形 熏 作 执行 ， 但 是 要 等 竺 图 形 硬件 执行 完成 之 后 才 返 回 这 些 指 


x 








在 下 面 讲解 GLSL 语 法 以 及 内 骨 函 数 时 将 会 学 习 到 具体 如 何 实现 顶 
所 着 色 器 和 片 元 着 色 器 ， 并 且 还 会 实现 如 何 写 出 一 组 着 色 器 (包括 顶点 
独 色 器 与 片 元 着 色 器 ) 为 图 片 增 加 对 比 度 的 功能 。 


2.GLSL 语 法 与 内 建 函 数 
本 节 的 目标 是 实现 一 组 着 色 器 来 完成 增强 对 比 度 的 功能 ， 但 是 还 不 


能 直接 看 到 这 组 着 色 器 的 效果 ， 因 为 着 色 器 需要 运行 到 显卡 中 ， 要 想 看 
到 效果 还 需要 继续 完成 后 续 的 学 习 ， 所 以 先 不 要 着 急 ， 我 们 慢 慢 来 。 

















前 面 已 经 粗略 介绍 过 GLSL 是 什么 了 ， 但 是 一 直 没 有 为 它 下 过 准确 
的 定义 ， 就 是 担心 读者 看 到 它 的 定义 之 后 ， 觉 得 不 可 理解 ， 现 在 ， 我 们 
己 经 了 解 了 泻 染 管线 ， 应 该 也 已 经 充分 理解 了 着 色 器 到 底 是 做 什么 用 的 
了 ，GLSL 全 和 称 为 OpenGL Shading Language， 是 为 了 实现 着 色 器 的 功能 
Le 0 的 一 种 开发 语言 ， 对 其 只 要 能 理解 到 这 个 层次 就 可 以 





(1) GLSEL 的 修饰 符 与 基本 数据 类 型 

具体 来 说 ，GLSL 的 语法 与 C 语 言 非常 类 似 ， 学 习 一 门 语言 ， 首 先 要 
看 它 的 数据 类 型 表示 ， 然 后 再 学 习 有 具体 的 运行 流程 。 对 于 GLSL， 其 数 
据 类 型 表示 具体 如 下 。 

首先 是 修饰 符 ， 有 具体 如 下 : 

const: 用 于 声明 非 可 写 的 编译 时 常量 变量 。 

attribute: 用 于 经 常 更 改 的 信息 ， 只 能 在 顶点 着 色 器 中 使 用 。 

Uniform: 用 于 不 经 常 更 改 的 信息 ， 可 用 于 顶点 着 色 器 和 片 元 着 色 




















varying: 用 于 修饰 从 顶点 着 色 器 向 片 元 着 色 器 传递 的 变量 。 


然后 是 基本 数据 类 型 ， int、float、bool， 这 些 与 C 语 言 都 是 一 致 
的 ， 需 要 强调 的 一 点 就 是 ， 这 里 面 的 float 是 有 一 个 修 而 得 的 即 可 以 指 
三 种 修饰 符 的 范围 《范围 一 般 视 显卡 而 定 ) 和 应 用 情况 具体 如 





:highp: 32bit， 一 般 用 于 顶点 坐标 (vertex Coordinate) 。 
medium: 16bit， 一 般 用 于 纹理 坐标 〈texture Coordinate) 。 
:lowp: 8bit， 一 般 用 于 颜色 表示 〈color) 。 


接 下 来 是 向 量 类 型 ， 向 量 类 型 是 Shader 中 非常 重要 的 一 个 数据 类 
型 ， 因 为 在 做 数据 传递 的 时 候 需 要 经 和 常 传递 多 个 参数 ， 相 较 于 写 多 个 基 
本 数据 类 型 ， 使 用 向 量 类 型 是 非常 好 的 选择 。 列 举 一 个 最 经 典 的 例子 ， 
要 将 物体 坐标 和 纹理 坐标 传递 到 Vertex Shader 中 ， 用 的 就 是 向 量 类 型 ， 














每 一 个 顶点 都 是 一 个 四 维 向 量 ， 在 Vertex Shader 中 利用 这 两 个 四 维 向 量 
即 可 完成 自己 的 纹理 坐标 映射 操作 。 声 明 方 式 如 下 〈GLSL 人 代码) : 





attribute vec4 position,; 





之 后 是 炉 隆 大宇 ， 矩阵 类 型 在 Shader 的 语法 中 也 是 一 个 非常 重要 的 
类 型 ， 有 一 些 效果 器 需要 开发 者 传 入 矩阵 类 型 的 数据 ， 比 如 后 面 会 接触 
到 的 怀旧 效果 器 ， 就 需要 传 入 一 个 矩阵 来 改变 原始 的 像素 数据 。 声 明 方 
式 如 下 (GLSL 代 码 ) : 








uniform lowp mat4 colorMatrix; 





上 面 的 代码 表示 了 一 个 4x4 的 浮 点 矩阵 ， 如 果 是 mat2 就 是 2x2 的 浮 点 
证 阵 ， 如 果 是 mat3 束 是 3x3 的 浮 点 矩阵 。 知 要 传递 一 个 矩阵 到 实际 的 
Shader 中 ， 则 可 以 直接 调用 如 下 函数 《客户 端 代码 ) : 





glUniformMatrix4fv(mColorMatrixLocation, 1, false, mColorMatrix); 











紧 接 着 是 纹理 类 型 ， 本 章 的 最 后 一 方 (4.3.4 节 ) 将 会 介绍 应 该 如 何 
加 载 以 及 泻 染 纹 理 ， 但 是 这 里 要 讲解 的 是 如 何 声明 这 个 类 型 ， 一 般 仅 在 
Fragment Shader 中 使 用 这 个 类 型 ， 二 维 纹理 的 声明 方式 如 下 《GLSL 代 
人 码 ) : 





uniform sampler2D texSampler:; 





当 客 户 端 接收 到 这 个 句柄 时 ， 束 可 以 为 它 绑 定 一 个 纹理 ， 代 码 如 下 
(客户 端 代码 〉: 





glActiveTexture(GL_TEXTUREOQ); 
glBindTexture(GL_TEXTURE_ 2D, texId); 
glUniform1ii(mGLUnNiformTexture, 0); 





注意 上 述 代码 中 第 一 行 激活 的 是 哪 一 个 纹理 句柄 ， 第 三 行 代码 中 的 
第 二 个 参数 需要 传递 对 应 的 Index， 就 像 代码 中 激活 的 纹理 句柄 是 
GL_TEXTURE0， 对 应 的 Index 就 是 0， 如 果 激 活 的 纹理 句柄 是 


GL_TEXTURE1， 那 么 对 应 的 Index 就 是 1， 在 不 同 的 平台 上 人 句柄 的 个 数 
也 不 一 样 ， 但 是 一 般 都 会 在 32 个 以 上 。 


最 后 来 看 一 下 比较 特殊 的 传递 类 型 ， 在 GLSL 中 有 一 个 特殊 的 修饰 
符 就 是 varying， 这 个 修饰 符 修 饰 的 变量 均 用 于 在 Vertex Shader 和 
Fragment Shader 之 间 传 递 参 数 。 首 先 在 顶点 着 色 器 中 声明 这 个 类 型 的 变 
量 代 表 纹 理 的 坐标 点 ， 并 且 对 这 个 变量 进行 赋值 ， 代 码 如 下 : 





attribute vec2 texcoord ; 
varying vec2 v_texcoord; 
void main(void) 


// 计算 顶点 坐标 
V_texcoord = texcoord 





} 





紧 接着 在 Fragment Shader 中 也 声明 同名 的 变量 ， 然 后 使 用 texture2D 
方法 取出 二 维 纹理 中 该 纹理 坐标 点 上 的 纹理 像素 值 ， 代 码 如 下 (GLSL 
代码 ) : 








varying vec2 v_texcoord; 
vec4 texel = texture2D(texSampler, v_texcoord); 





取出 了 该 坐标 把 上 的 像 系 值 之 后 ， 束 可 以 进行 像素 变化 操作 了 ， 比 
如 说 提高 对 比 度 ， 最 终 将 改变 的 像 系 值 赋值 给 g]_FragColor。 


(2) GLSL 的 内 置 函 数 与 内 置 变 量 
首先 来 看 内 置 变 量 ， 最 和 常见 的 是 两 个 Shader 的 输出 变量 。 
先 来 看 Vertex Shader 的 内 置 变 量 (GLSL 代 人 码 ): 

















vec4 gl position; 





上 述 代 码 用 来 设置 顶点 转换 到 屏幕 坐标 的 位 置 ，Vertex Shader 一 定 
要 去 更 新 这 个 数值 。 男 外 还 有 一 个 内 置 变量 ， 代 码 如 下 (GLSL 代 
码 ) : 





float gl pointSize,; 





在 粒子 效果 的 场景 下 ， 需 要 为 粒子 设置 大 小 ， 改 变 该 内 置 变量 的 值 
就 是 为 了 设置 每 一 个 粒子 矩形 的 大 小 。 


其 次 是 Fragment Shader 的 内 置 变量 ， 代 码 如 下 〈GLSL 人 代码) : 





vec4 gl FragColor; 





上 述 代码 用 于 指定 当前 纹理 坐标 所 代表 的 像素 点 的 最 终 颜 色 值 。 


然后 是 内 置 函 数 ， 具 体 的 函数 可 以 去 官方 文档 中 查询 ， 这 里 仪 介绍 
儿 个 常用 的 函数 。 


:abs (genType x) : 绝对 值 函 数 。 
:floor (genTypex) : 问 下 取 整 函数 。 
:ceil (genType Xx) : 问 上 取 整 函数 。 





:mod (genType x，genType y); : 取 模 函数 。 

-min (genType x，genType y); : 取得 最 小 值 函 数 。 

max (genType x，genType y); : 取得 最 大 值 函 数 。 

:clamp 〈genType x，genType y，genType z) : 取得 中 间 值 函数 。 


'Step (genType edge，genType X) : 如 果 x<edge， 则 返回 0.0， 人 否则 
返回 1.0。 


‘smoothstep (genType edge0， 4 edge1，genType X) : 如 果 
x<edge0， 则 返回 0.0; 如 果 x>edgel， 则 返回 1.0; 如 果 edge0<x<edge1， 
则 执行 0 一 1 之 间 的 平滑 差 值 。 


:mix (genType X，genType y，genType a) : 返回 线性 混合 的 x 和 和 
y， 用 公式 表示 为 : x* (1-a) +y*#a， 这 个 函数 在 mix 两 个 纹理 图 像 的 时 
候 非常 有 用 。 


其 他 的 角度 函数 、 指 数 函 数 、 几 何 函 数 在 这 里 就 不 再 痪 述 了 ， 大 家 
可 以 去 官方 文档 进行 查询 。 对 于 一 个 语言 的 语法 来 讲 ， 剩 下 的 就 是 控制 
流 部 分 了 ， 而 GLSL 的 控制 流 与 C 语 言 非常 类 似 ， 既 可 以 使 用 for、while 
以 及 do-while 实 现 循环 ， 也 可 以 使 用 过 和 if-else 进 行 条 件 分 支 的 操作 ， 在 
后 面 的 实践 过 程 中 及 GLSL 代 码 中 都 会 用 到 这 些 控制 流 ， 在 这 里 将 不 再 
讲解 这 些 枯燥 的 语法 。 


至 此 ，GLSL 的 语法 部 分 已 经 讲解 得 差不多 了 ， 上 毕竟 本 节 所 写 的 程 
序 〈Shader) 都 是 运行 在 GPU 上 的 ， 那 么 在 CPU 上 运行 的 程序 〈 应 用 程 
序 ) 应 该 如 何 将 这 一 组 Shader 交 给 OpenGL ES 的 泻 染 管线 呢 ? 下 面 就 来 
介绍 如 何在 应 用 程序 中 使 用 Shader。 


3. 创 建 显 卡 执行 程序 


前 面 已 经 学 习 了 GLSL 的 语法 以 及 内 散 函 数 ， 并 且 也 已 经 完成 了 一 
组 Shader 的 实例 ， 那 么 ， 如 何 让 显卡 来 运行 这 一 组 Shader 呢 ?或 者 说 如 
何 用 Shader 来 蔡 换 掉 OpenGL 泻 染 管 线 中 的 那 两 个 阶段 呢 ?” 下 面 就 来 学 
习 一 下 如 何 将 Shader 传 递 给 OpenGL 的 泻 染 管线 。 先 来 看 一 下 图 4-5， 该 
图 摘 述 了 如 何 创 建 一 个 显卡 的 可 执行 程序 ， 后 文中 将 其 统称 为 


Program。 
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图 4-5 


下 面 就 按照 图 4-5 逐 一 解释 一 下 如 何 创建 该 Program。 首 先 来 看 图 4-5 
的 右 半 部 分 ， 即 创建 shader 的 过 程 ， 第 一 步 是 调用 glCreateShader 方 法 创 
ER 作为 shader 的 容器 ， 该 函数 会 返回 一 个 容器 的 句柄 ， 函 数 
和 原型 0 下: 





GLuint glCreateShader (GLenum shaderType); 





函数 原型 中 的 参数 shaderType 有 两 种 类 型 ， 当 要 创建 VertexShader 
时 ， 开 发 者 应 该 传 入 类 型 GL_VERTEX_SHADER; 当 要 创建 
FragmentShader 时 ， 开 发 者 应 该 传 入 GL_FRAGMENT_SHADER 类 型 。 
下 一 步 就 是 为 创建 的 这 个 shader 添 加 源 代码 ， 即 图 4-5 中 最 右边 的 这 两 个 
Shader Content， 它 们 就 是 前 面 讲 解 过 的 根据 GLSL 语 法 和 内 骸 函 数 编写 
的 两 个 着 色 器 程序 〈Shader) ， 其 为 字符 串 类 型 。 函 数 原型 如 下 : 





void glShaderSource(GLuint shader, int numOofStrings, const char **strings, i 
*lenofStrings) 





上 述 函 数 的 作用 就 是 把 开发 者 编写 的 着 色 器 程序 加 载 到 着 色 器 句柄 
Me 
I 下: 











void glCompileShader(GLuint shader); 





待 编 译 完成 之 后 ， 还 需要 验证 该 Shader 是 否 编译 成 功 了 人。 那么 ， 应 
该 如 何 验证 呢 ? 使 用 下 面 的 函数 即 可 进行 验证 : 





void glGetShaderiv (GLuint shader, GLenum pname, GLint* params ) ; 





其 中 第 一 个 参数 就 是 需要 验证 的 Shader 句 柄 ; 第 二 个 参数 是 需要 验 
证 的 Shader 的 状态 值 ， 这 里 一 般 是 验证 编译 是 否 成 功 ， 该 状态 值 一 般 是 
选取 GL_COMPILE_STATUS; 第 三 个 参数 是 返回 值 。 当 返回 值 为 1 时 ， 
则 说 明 该 Shader 是 编译 成 功 的 ; 如果 为 0， 则 说 明 该 Shader 没 有 被 编译 成 
功 ， 如 果 编 译 没 有 成 功 ， 那 么 开发 者 肯定 需要 知道 到 底 是 着 色 器 代码 中 
的 哪 一 行 出 了 问题 ， 所 以 还 需要 调用 上 面 的 函数 ， 只 不 过 此 时 获取 的 是 
该 Shader 的 另外 一 个 状态 ， 该 状态 值 应 该 选取 
GL_INFO_ LOG_LENGTH， 返 回 值 返回 的 则 是 错误 原因 字符 串 的 长 
度 ， 我 们 可 以 利用 这 个 长 度 分 配 出 一 个 buffer， 然 后 调用 获取 Shader 的 
InfoLog 函 数 ， 函 数 原 型 如 下 : 











void glGetShaderInfoLog(GLuint object, int maxLen, int *len, char *1og) ; 





之 后 可 以 把 mmfoLog 打 印 出 来 ， 以 帮助 我 们 调试 实际 Shader 中 的 错 
误 。 按 照 上 面 的 步骤 可 以 创建 出 Vertex Shader 和 Fragment Shader。 接 下 
来 再 来 看 图 4-5 的 左 半 部 分 ， 即 如 何 通 过 这 两 个 Shader 来 创建 
Program 《显卡 可 执行 程序 ) 。 


首先 创建 一 个 对 象 ， 作 为 程序 的 容器 ， 此 函数 将 返回 容 右 的 句柄 。 
函数 原型 如 下 : 








GLuint glCreateProgram(void) ; 


大 人 调用 的 函数 
称 如 下 : 


void glAttachShader(GLuint program, GLuint shader ) ; 


第 一 个 参数 就 是 传 入 上 一 步 返 回 的 程序 容 右 的 句柄 ， 第 二 个 参数 就 
是 编译 的 Shader 容 器 的 句柄 ， 当 然 要 为 每 一 个 Shader 都 调用 一 次 这 个 方 
法 才能 把 两 个 Shader 都 关联 到 Program 中 去 。 最 后 一 步 就 是 链接 程序 
链接 函数 原型 如 下 : 














void glLinkProgram(GLuint program); 





传 入 参数 残 是 程 厅 容 占 的 句柄 ， 那 么 这 个 程序 到 底 有 没有 链接 成 功 
呢 ? OpenGL 提 供 了 一 个 函数 来 检查 该 程序 的 状态 ， 函 数 原 型 如 下 : 





glGetProgramiv (GLuint program，GLenum pname，GLint* params ) ， 


第 一 个 参数 就 是 传 入 程序 容器 的 句柄 ， 第 二 个 参数 代表 需要 检查 该 
程序 的 哪 一 个 状态 ， 这 里 传 入 的 是 GL_LINK_STATUS， 最 后 一 个 参数 
就 是 返回 值 。 返 回 值 为 1 则 代表 链接 成 功 ， 如 果 返 回 值 为 0 则 代表 链接 失 
败 ， 类 似 于 编译 Shader 的 操作 ， 如 果 链 接 失 败 了 ， 也 可 以 获取 错误 信 
息 ， 以 便 修 改 程序 。 如 果 想 获取 具体 的 错误 信息 ， 应 该 调用 下 属 函 数 ， 
但 是 第 二 个 参数 传递 的 是 GL_INFO_LOG LENGTH， 代 表 获 取 该 程序 
do 获取 到 长 度 之 后 我 们 分 配 出 一 个 char* 的 内 存 空间 以 
获取 InfoLog， 函 数 原 型 如 下 : 





void glGetProgramInfoLog(GLuint object, int maxLen, int *len, char *1og) 





调用 该 函数 返回 InfoLog 之 后 可 以 将 其 打印 出 来 ， 以 便于 后 续 修 改 
程序 。 至 此 就 可 以 创建 一 个 Program (显卡 可 执行 程序 ) 了 ， 回 顾 一 下 
整个 过 程 ， 其 实 有 点 类 似 于 C 语 言 的 编译 和 链接 阶段 ， 而 构造 OpenGL 
Program 也 是 一 样 的 ， 在 构造 Shader 的 过 程 中 需要 编译 Shader， 人 然后 将 两 
个 Shader 关 联 到 具体 的 Program 之 后 还 需要 链接 该 Program。 接 下 来 就 是 
如 何 使 用 该 程序 ， 使 用 这 个 构建 出 来 的 程序 也 很 简单 ， 调 用 
晶 UseProgram 方 法 就 可 以 了 。 至 此 本 节 要 介绍 的 内 容 已 基本 介绍 完毕 ， 
但 是 要 想 完 全 运行 到 手机 上 ， 还 需要 为 OpenGL ES 的 运行 提供 一 个 上 下 
下 面 就 来 学 习 在 两 个 平台 上 如 何 为 OpenGL ES 提供 上 下 文 环 
上- 砚 , o 











4.3.3 上下文 环境 搭建 


驶 像 前 面 提 到 的 ，OpenGL 不 负 贡 窗口 管理 及 上 下 文 环境 管理 ， 访 
职责 将 由 各 个 平台 或 者 设备 自行 完成 。 为 了 在 OpenGL 的 输出 与 设备 的 
屏幕 之 间架 接 起 一 个 桥 染 ，Khronos 创 建 了 EGEL 的 API，EGEL 是 双 绥 冲 的 
工作 模式 ， 即 有 一 个 Back Frame Buffer 和 一 个 Front Frame Buffer， 正 党 
绘制 操作 的 目标 都 是 Back Frame Buffer， 操 作 完毕 之 后 ， 调 用 
eglSwapBuffer 这 个 API， 将 绘制 完毕 的 FrameBuffer 交 换 到 Front Frame 
Buffer 并 显示 出 来 。 而 在 Android 平 台 上 ， 使 用 的 是 EGL 这 一 套 机 制 ， 
EGL 承 担 了 为 OpenGL 提 供 上 下 文 环境 以 及 窗口 管理 的 职员 。iOS 平 台 为 
OpenGL 提 供 的 实现 则 是 EAGL 〈 可 以 按照 Eagle 来 发 音 ) ， 比 较 重 要 的 
是 ，iOS 平 台 不 允许 直接 泻 染 到 屏幕 上 ， 因 此 要 使 用 renderBuffer 来 代 
蔡 。 对 于 这 两 个 平台 的 实现 下 面 将 分 别 给 出 详细 的 代码 以 及 解释 。 


1.Android 下 的 环境 搭建 


要 在 Android 平 台 上 使 用 OpenGL ES， 第 一 种 方式 是 直接 使 用 
GLSurfaceView， 通 过 这 种 方式 使 用 OpenGL ES 比较 简单 ， 因 为 不 需要 
开发 者 搭建 OpenGL ES 的 上 下 文 环境 ， 以 及 创建 OpenGL ES 的 显示 设 
备 。 但 是 凡事 都 有 两 面 ， 有 好 处 也 束 有 坏处 ， 使 用 GLSurfaceView 不 够 
有 灵活， 很 多 真正 的 OpenGL ES 的 核心 用 法 (比如 共享 上 下 文 来 达到 多 线 
程 共同 操作 一 份 纹理 ) 都 不 能 直接 使 用 。 所 以 本 书 的 OpenGL ES 上 下 文 
环境 ， 都 是 直接 使 用 EGL 的 API 来 搭建 的 ， 并 且 是 基于 C++ 的 环境 搭建 
的 。 因 为 如 果 仅 仅 在 Java 层 编号， 那么 对 于 普通 的 应 用 也 许可 行 ， 但 是 
对 于 要 进行 解码 或 使 用 第 三 方 库 的 场景 〈 比 如 人 脸 识别 ) ， 则 需要 到 
C++ 层 来 实施 。 出 于 效率 和 性 能 的 考虑 ， 这 里 的 架构 将 直接 使 用 Native 
层 的 EGL 搭 建 一 个 OpenGL ES 的 开发 环境 。 要 想 在 Native 层 使 用 EGL， 
那么 就 必须 要 在 Makefile 文 件 (Android.mk) 中 加 入 EGL 库 ， 并 在 使 用 
该 库 的 C++ 文件 中 引入 对 应 的 头 文 件 。 


需要 包含 的 头 文件 : 














#include <EGL/egl.h> 
#include <EGL/eglext.h> 





需要 引入 的 so 库 : 


LOCAL_LDLIBS += -]EGL 





这 样 束 可 以 在 Android 的 C++ 开发 中 使 用 EGL 了， 不 过 要 想 使 用 
OpenGL ES， 还 需要 引入 OpenGL ES 对 应 的 头 文件 与 库 。 


需要 包含 的 头 文件 : 





#include <GLES2/g12.h> 
#include <GLES2/gl2ext.h> 





需要 引入 的 so 库 ， 注 意 这 里 使 用 的 是 OpenGL ES 的 2.0 版 本 : 





LOCAL_LDLIBS += -l]GLESVv2 





至 此 ， 对 于 OpenGL 的 开发 需要 用 到 的 头 文件 以 及 库 文 件 束 引入 完 
毕 了 ， 下 面 再 来 看 一 下 如 何 使 用 EGL 搭 建 出 OpenGL 的 上 下 文 环境 以 及 
演 染 的 目标 屏幕 。 


首先 EGL 需 要 知道 绘制 内 容 的 目标 在 哪里 ，EGLDisplay 是 一 个 封装 
系统 物理 屏幕 的 数据 类 型 (可 以 理解 为 绘制 目标 的 一 个 抽象 ) ， 通 常会 
调用 eglGetDisplay 方 法 返回 EGLDisplay 来 作为 OpenGL ES 演 染 的 目标 。 
在 调用 该 方法 的 时 候 ， 常 量 EGL_DEFAULT_DISPLAY 会 被 传 进 该 方法 
中 ， 每 个 厂商 通常 都 会 返回 默认 的 显示 设备 ， 代 码 如 下 : 





if ((display = eglGetDisplay(EGL_ DEFAULT_DISPLAY)) == EGL_NO_DISPLAY) { 
LOGE("eglGetDisplay() returned error %d", eglGetError()); 
return false; 


} 





然后 调用 eglInitialize 来 初始 化 这 个 显示 设备 ， 该 方法 会 返回 一 个 布 
尔 型 变量 来 代表 执行 状态 ， 后 面 两 个 参数 则 代表 Major 和 Minor 的 版 本 ， 
比如 EGL 的 版 本 号 是 1.0， 那 么 Major 将 返回 1，Minor 则 返回 90。 如果 不 关 
心 版 本 号 ， 则 可 都 传 入 0 或 者 NULL， 代 码 如 下 : 








if (!eglInitialize(display, 0, 0)) { 
LOGE("eglInitialize() returned error %d", eglGetError()); 
return false; 





接 下 来 就 需要 准备 配置 选项 了 ， 一 旦 EGL 有 了 Display 之 后 ， 它 就 可 
以 将 OpenGL ES 的 输出 和 设备 的 屏幕 桥接 起 来 ， 但 是 需要 指定 一 些 配 置 
项 ， 类 似 于 色彩 格式 、 像 素 格式 、RGBA 的 表示 以 及 SurfaceType 等 ， 不 
的 EGL 标 准 是 不 同 的 ，Android 平 台 下 的 配置 代 
马 如 下 所 示 : 











const EGLint attribs[] = {EGL_BUFFER_SIZE, 32, 
EGL_ALPHA_SIZE, 8, 
EGL_BLUE_SIZE, 8, 
EGL_GREEN_SIZE, 8, 
EGL_RED_SIZE, 8, 
EGL_RENDERABLE_TYPE, EGL_OPENGL_ES2 BIT, 
EGL_ SURFACE_TYPE, EGL_ WINDOW_BIT, 
EGL_NONE }; 
if (!eglChooseConfig(display, attribs, &config, 1, &numConfigs)) { 
LOGE("eglChooseConfig() returned error %d", eglGetError()); 
return false; 


} 





最 终 可 通过 调用 eglChooseConfig 方 法 得 到 配置 选项 信息 ， 接 下 来 就 
需要 创建 OpenGL 的 上 下 文 环 境 一 一 EGLContext 了 ， 这 里 需要 用 到 之 前 
介绍 过 的 EGLDisplay 和 EGLConfig， 因 为 任何 一 条 OpenGL 指 令 都 必须 
在 自己 的 OpenGL 上 下 文 环境 中 运行 ， 所 以 可 以 按照 如 下 代码 构建 出 
OpenGL 的 上 下 文 环境 : 





EGLint attributes[] = { EGL_CONTEXT_CLIENT_VERSION, 2, EGL_NONE }; 
if (!(context = eglCreateContext(display, config, NULL, 
eglCcontextAttributes))) { 
LOGE("eglCreateContext() returned error %d", eglGetError()); 
return false; 


} 





函数 eglCreateContext 的 第 三 个 参数 可 以 由 开发 者 传 入 一 个 
EGLContext 类 型 的 变量 ， 该 变量 的 意义 是 指 可 以 与 正在 创建 的 上 下 文 环 
境 共 享 OpenGL 资 源 ， 包 括 纹 理 ID、FrameBuffer 以 及 其 他 的 Buffer 资 
源 。 这 里 暂时 填写 为 NULL， 代 表 不 需要 与 其 他 的 OpenGL ES 上 下 文 共 
享 任 何 资源 ， 后 文 介绍 的 项 目 中 在 一 些 条 件 下 其 实 是 需要 共享 上 下 文 
的 ， 这 点 将 在 后 面 进行 讨论 。 


通过 上 面 这 三 步 创 建 OpenGL 的 上 下 文 之 后 ， 说 明 EGL 和 OpenGL 








ES 端的 环境 已 经 搭建 完毕 ， 即 OpenGL ES 的 输出 已 经 可 以 获取 到 了 ， 那 
么 应 该 如 何 将 该 输出 泻 染 到 设备 的 屏幕 上 呢 ? 应 该 将 EGL 和 设备 的 屏幕 
连接 起 来 ， 只 有 这 样 EGL 才 是 一 个 “ 桥 ” 的 功能 ， 从 而 使 得 OpenGL ES 的 
输出 可 以 泻 染 到 设备 的 屏幕 上 。 那 么 如 何 将 EGL 和 设备 的 屏幕 连接 起 来 
呢 ? 答案 是 使 用 EGLSurface，Surface 实 际 上 是 一 个 FrameBuffer， 通 过 
EGL 库 提供 的 eglCreateWindowSurface 可 以 创建 一 个 可 实际 显示 的 
Surface， 通 过 EGL 库 提供 的 eglCreatePbufferSuface 可 以 创建 一 个 
OffScreen 的 Surface， 当 然 Surface 也 有 很 多 属性 ， 其 中 最 基础 的 属性 包 
括 EGL_WIDTH、EGL_HEIGHT 等 ， 代 码 如 下 : 








EGLSurface Surface = NULL; 

EGLint format ， 

if (!eglGetConfigAttrib(display, config, EGL_NATIVE VISUAL_ID, 

&format)) { 

LOGE("eglGetConfigAttrib() returned error %d", eglGetError()); 
return surface; 

} 

ANativeWindow_setBuffersGeometry(_window, 090, 0, format); 

if (!(surface = eglCreatewindowSurface(display, config, _window, 0))) { 
LOGE("eglCreatewindowSurface() returned error %d", eglGetError()); 

} 








有 的 读者 可 能 会 问 _window 是 什么 ?这 里 需要 重点 解释 一 下 ， 这 个 
_window 就 是 通过 Java 层 的 Surface 对 象 创建 出 的 ANativeWindow 类 型 的 
对 象 ， 即 本 地 设备 屏幕 的 表示 ， 在 Android 里 面 可 以 通过 Surface (通过 
SurfaceView 或 者 TextureView 来 得 到 或 者 构建 出 的 Surface 对 象 ) 构建 
ANativewindow。 这 需要 我 们 在 使 用 的 时 候 引 用 头 文 件 : 








#include <android/native_ window.h> 
#include <android/native window_jni.h> 





调用 ANAtiveWindow API 的 代码 如 下 : 





ANativeWindow* window = ANativeWindow fromSurface(env, surface); 





env 束 是 JNI 层 的 JNIEnv 指 针 类 型 的 变量 ，surface 就 是 jobject 类 型 的 
变量 ， 由 Java 层 Surface 对 象 传递 而 来 。 这 样 就 可 以 把 EGL 和 Java 层 的 
View〔 即 设备 的 屏幕 ) 连接 起 来 了 。 如 果 要 做 离线 的 泻 染 ， 即 在 后 台 使 
用 OpenGL 进 行 一 些 图 像 的 处 理 ， 融 需要 用 到 离线 处 理 的 Surface 了 ， 创 
建 离线 处 理 Surface 的 代码 如 下 : 


人 | 


EGLSurface Surface 
EGLint PbufferAttributes[] = { EGL_WIDTH，width，EGL_HEIGHT，height，EGL_NON 
EGL_NONE }; 
if (! 
(surface = eglCreatePbufferSurface(display, config, PbufferAttributes))) { 
LOGE("eglCreatePbufferSurface() returned error %d", eglGetError()); 





进行 离线 泻 染 的 时 候 ， 可 以 使 用 这 个 Surface 进 行 操作 。 


现在 ，EGL 的 准备 工作 已 经 做 好 了 ， 一 方面 为 OpenGL ES 的 泻 染 准 
备 好 了 上 下 文 环 境 ， 可 以 接收 到 OpenGL ES 演 染 出 来 的 纹理 ， 另 外 一 方 
面 连接 好 了 设备 的 屏幕 (Java 层 提供 的 SurfaceView 或 者 
TextureView) ， 那 么 接 下 来 就 来 具体 看 一 下 如 何 使 用 创建 好 的 EGL 环 
境 进 行 工 作 。 


首先 需要 明确 一 点 ， 开 发 者 需要 开辟 一 个 新 的 线程 ， 来 执行 
OpenGL ES 的 泻 染 操作 ， 而 且 还 必须 为 该 线程 绑 定 显示 设备 (Surface) 
与 上 下 文 环境 〈Context) ， 因 为 每 个 线程 都 需要 绑 定 一 个 上 下 文 ， 这 样 
才 可 以 执行 OpenGL 的 指令 ， 所 以 首先 需要 调用 eglMakeCurrent， 来 为 该 
线程 绑 定 Surface 与 Context。 

















eglMakeCurrent(display, eglSurface, eglSurface, context); 





然后 束 可 以 执行 RenderLoop 循 环 了 ， 每 次 循环 都 将 调用 OpenGL ES 
指令 绘制 图 人像。 前文 曾经 提 到 过 ，EGL 的 工作 模式 是 双 绥 冲模 式 ， 其 内 
部 有 两 个 FrameBuffer〈 帧 缓冲 区 ， 可 以 理解 为 是 一 个 图 像 的 存储 区 
域 ) ， 当 EGL 将 一 个 FrameBuffer 显 示 到 屏幕 上 的 时 候 ， 另 外 一 个 
FrameBuffer 就 在 后 台 等 待 OpenGL “ES 进行 泻 染 输 出 了 。 直 到 调用 函数 
eglSwapBuffers 这 条 指令 的 时 候 ， 才 会 把 前 台 的 FrameBuffer 和 后 台 的 
FrameBuffer 进 行 交 换 ， 这 样 用 户 束 可 以 在 屏 大 上 看 到 刚才 OpenGL ES 泻 
染 输出 的 结果 了 。 


最 后 所 有 的 绘制 操作 执行 完毕 之 后 ， 需 要 销毁 资源 。 注 意 销 毁 资 源 
也 必须 在 这 个 线程 中 ， 首 先 要 销毁 显示 设备 〈EGLSurface) : 








eglDestroySurface(display, eglSurface); 





然后 销毁 上 下 文 (Context) : 





eglDestroyContext(display, context); 





至 此 在 Android 平 台 上 的 Native 层 中 ， 就 可 以 使 用 EGL 搭 建 起 来 的 
OpenGL ES 的 开发 环境 了 ， 后 面 的 章节 中 也 会 基于 此 进行 业务 开发 。 


2.iOS 下 的 环境 搭建 


在 iOS 平 台 上 不 允许 开发 者 使 用 OpenGL ES 直接 泻 染 屏 幕 ， 必 须 使 
用 FrameBuffer 与 RenderBuffer 来 进行 演 染 。 硅 要 使 用 EAGL， 则 必须 先 
创建 一 个 RenderBuffer， 然 后 让 OpenGL ES 演 染 到 该 RenderBuffer 上 去 。 
而 该 RenderBuffer 则 需要 绑 定 到 一 个 CAEAGLLayer 上 面 去 ， 这 样 开 发 者 
最 后 调用 EAGLContext 的 presentRenderBuffer 方 法 ， 就 可 以 将 泻 染 结果 
输出 到 屏幕 上 去 了 。 实 际 上 ， 在 调用 这 个 方法 时 ，EAGL 也 会 执行 类 似 
于 前 面 的 swapBuffer 过 程 ， 将 OpenGL ES 演 染 的 结果 绘制 到 物理 屏幕 上 
去 (View 的 Layer) ， 具 体 使 用 步骤 如 下 。 


首先 编写 一 个 View 类 ， 继 承 自 UIView， 然 后 重 写 父 类 UIView 的 一 
个 方法 layerClass， 并 且 返 回 CAEAGLLayer 类 型 





+ (Class) layerClass 


return [CAEAGLLayer class]; 





然后 在 该 View 的 initWithFrame 方 法 中 ， 获 得 layer 并 且 强 制 类 型 转换 
为 CAEAGLLayer 类 型 的 变量 ， 同 时 为 layer 设 置 参数 ， 其 中 包括 色彩 模 
式 等 属性 : 





- (id) initwithFrame:(CGRect )framet 
if ((self = [super initwithFrame:frame])){ 
CAEAGLLayer *eaglLayer = (CAEAGLLayer *)[self layer]; 
NSDictionary *dict = [NSDictionary dictionaryWwWithobjectsAndKeys : 
[NSNumber numberwithBool:NO], 
kEAGLDrawablePropertyRetainedBacking, 
kEAGLColorFormatRGB565, 
kEAGLDrawablePropertyColorFormat, 
nil]; 
[eaglLayer setOpaque:YES]; 
[eaglLayer setDrawableProperties:dict]; 


return self; 


} 





接 下 来 构造 EAGLContext 与 RenderBuffer 并 日 绑 定 到 Layer 上 ， 之 前 
也 提 到 过 ， 必 须 为 每 一 个 线程 绑 定 OpenGL ES 上 下 文 。 所 以 首先 必须 开 
辟 一 个 线程 ， 开 发 者 在 iOS 中 开辟 一 个 新 线程 有 多 种 方式 ， 可 以 使 用 
dispatch_queue， 也 可 以 使 用 NSOperationQueue， 甚 至 使 用 pthread 也 可 
以 ， 反 正 必须 在 一 个 线程 中 执行 以 下 操作 ， 首 先 创建 OpenGL ES 的 上 下 
文 : 





EAGLContext* _context,; 
_context = [[EAGLContext alloc]initwithAPI:kEAGLRenderingAPIOpenGLES2]; 





然后 实施 绑 定 操作 ， 代 码 如 下 : 





[EAGLContext setCurrentContext:_context]; 





此 时 就 已 经 为 该 线程 绑 定 了 刚刚 创建 好 的 上 下 文 环境 了 ， 也 就 是 说 
已 经 建立 好 了 EAGL 与 OpenGL ”ES 的 连接 ， 接 下 来 再 建立 另 一 端的 连 
接 。 


创建 帧 缓冲 区 : 








glGenFramebuffers(1, & FrameBuffer ) ， 





创建 绘制 缓冲 区 : 





glGenRenderbuffers(1, &renderbuffer); 





绑 定 帧 缓冲 区 到 洽 染 管线 : 





glBindFramebuffer(GL_ FRAMEBUFFER, _FrameBuffer ) ; 





绑 定 绘制 缓存 区 到 演 染 管线 : 





glBindRenderbuffer(GL_ RENDERBUFFER, _renderbuffer); 





为 绘制 缓冲 区 分 配 存储 区 ， 此 处 将 CAEAGLLayer 的 绘制 存储 区 作 
为 绘制 缓冲 区 的 存储 区 : 





[_context renderbufferStorage:GL RENDERBUFFER fromDrawable: (CAEAGLLayer*) 
self.layer] 








获取 绘制 缓冲 区 的 像素 宽度 : 





glGetRenderBufferPparameteriv(GL_ RENDER_ BUFFER, GL_RENDER_ BUFFER_ WIDTH, 
& backingwidth); 











获取 绘制 缓冲 区 的 像素 高 度 : 





glGetRenderBufferPparameteriv(GL_ RENDER_ BUFFER, GL_RENDER_BUFFER_HEIGHT， 
& backingHeight); 








将 绘制 缓冲 区 绑 定 到 帧 缓冲 区 : 





glFramebufferRenderbuffer(GL_FRAMEBUFFER, GL_COLOR_ ATTACHMENTO, GL_RENDERBUF 
_renderbuffer); 





检查 FrameBuffer 的 status: 





GLenum status = glLCheckFramebufferStatus(GL_FRAMEBUFFER ) ， 
if(status != GL_FRAMEBUFFER_COMPLETE){ 
// failed to make complete frame buffer object 


} 





至 此 我 们 就 将 EAGL 与 Layer (设备 的 屏 硕 ) 连接 起 来 了 ， 绘 制 完 一 
帧 之 后 (当然 绘制 过 程 也 必须 在 这 个 线程 之 中 )， ， 调 用 以 下 代码 : 





[_context presentRenderbuffer:GL RENDERBUFFER]; 








这 样 束 可 以 将 绘制 的 结果 显示 到 屏 间 上 了 。 人 至 此 我 们 就 搭建 好 了 











iOS 平 台 的 OpenGL ES 的 上 下 文 环境 ， 后 面 章节 会 在 此 基础 上 进行 业务 
于 发 3 


4.3.4 ”OpenGL ES 中 的 纹理 


OpenGL 中 的 纹理 可 以 用 来 表示 图 像 、 照 片 、 视 频 男 面 等 数据 ， 在 
视频 演 染 中 ， 只 需要 处 理 二 维 的 纹理 ， 每 个 二 维 纹理 都 由 许多 小 的 纹理 
元 素 组 成 ， 它 们 都 是 小 块 数据 ， 类 似 于 前 面 章节 所 说 的 像素 点 。 要 使 用 
纹理 ， 最 常用 的 方式 是 直接 从 一 个 图 像 文件 加 载 数据 。 


为 了 访问 到 每 一 个 纹理 元 素 ， 每 个 二 维 纹理 都 有 其 自己 的 坐标 空 
间 ， 其 范围 是 从 左下 角 的 《0，0) 到 右上 角 的 《1，1) 。 按 照 惯例 ， 一 
个 维度 称 为 S， 而 另 一 个 则 称 为 T。 

如 图 4-6 所 示 ， 对 于 OpenGL 内 部 的 纹理 ， 坐 标的 方 癌 性 是 规定 的 ，t 
方 问 下 面 是 0， 上 面 是 1， 而 对 于 s 方 向 ， 左 边 是 0， 右 边 是 1， 从 而 构成 
了 上 述 四 个 顶点 的 坐标 位 置 ， 而 中 间 的 位 置 就 是 〈0.5，0.5) 。 但 是 在 
这 里 还 有 力 外 一 个 坐标 系 的 概念 ， 那 就 是 计算 机 系统 里 的 坐标 系 ， 通 和 
将 x 轴 称 为 横 轴 ，y 轴 称 为 纵 轴 ， 如 图 4-7 所 示 。 


8 法 Cb. 
= 
(0, 0) S 《1,2 


OpenGL 二 维 纹理 坐标 
图 4-6 











(0，0 ) Ge 





Texture 
CD 1 和 从 (1, 1) 


计算 机 图 像 二 维 纹理 坐标 
图 4-7 


我 们 所 熟知 的 不 论 是 计算 机 还 是 手机 的 屏 大 坐标 系 ，x 轴 从 左 到 右 
都 是 从 0 到 1，y 轴 从 上 到 下 是 从 0 到 1， 与 图 片 的 存储 恰好 是 一 致 的 ， 假 
设 图 片 的 存储 是 把 所 有 的 像素 点 部 存储 到 一 个 大 数组 中 ， 图 片 存储 的 第 
一 个 像 系 点 也 是 左上 和 角 的 像素 点 〈 即 第 一 排 第 一 列 的 像 系 点 ) ， 然 后 是 
第 二 个 像素 点 (第 一 排 第 二 列 ) 存储 在 数组 的 第 二 个 元 素 中 ， 那 么 ， 这 
里 的 坐标 和 OpenGL 中 的 纹理 坐标 正好 是 做 了 一 个 180 度 的 旋转 ， 后 面 将 
会 看 到 如 何 从 本 地 图 片 中 加 载 一 张 纹理 并 且 泻 染 到 界面 上 ， 而 对 于 纹理 
坐标 和 计算 机 系统 坐标 的 理解 ， 在 那 时 就 会 显得 非常 重要 了 。 


下 面 再 来 看 一 下 如 何 加 载 一 张 图 片 作为 OpenGL 中 的 纹理 ， 首 先 要 
在 显卡 中 创建 一 个 纹理 对 象 ，OpenGL ES 提供 的 方法 原型 如 下 : 











void glGenTextures (GLsizei n, GLuint* textures ) 





这 个 方法 传递 进去 的 第 一 个 参数 是 需要 创建 几 个 纹理 对 象 ， 并 且 把 
创建 好 的 纹理 对 象 的 句柄 放 到 第 二 个 参数 中 去 ， 所 以 第 二 个 参数 是 一 个 
数组 〈 指 针 ) 的 形式 。 如 果 只 需要 创建 一 个 纹理 对 象 的 话 ， 则 只 需要 声 
明 一 个 GLuint 类 型 的 texId， 然 后 针对 该 纹理 ID 取 地 址 ， 并 将 其 作为 第 二 
个 参数 ， 就 可 以 创建 出 这 个 纹理 对 象 了 ， 代 人 码 如 下 : 





glGenTextures(1, &texId); 








执行 完 这 行 代码 之 后 ， 束 会 在 显卡 中 创建 出 一 个 纹理 对 象 ， 并 且 把 
该 纹理 对 象 的 句柄 返回 给 texId 变 量 。 紧 接着 开发 者 要 操作 该 纹理 对 象 ， 
但 是 在 OpenGL ES 的 操作 过 程 中 必须 告诉 OpenGL ES 具体 操作 的 是 哪 一 
个 纹理 对 象 ， 所 以 必须 调用 OpenGL “ES 提供 的 一 个 绑 定 纹理 对 象 的 方 
法 ， 调 用 代码 如 下 : 





glBindTexture(GL_TEXTURE_ 2D, texId); 





执行 完毕 上 面 这 行 代码 之 后 ， 下 面 的 操作 就 都 是 针对 于 texId 这 个 纹 
0 
定 . 尺码 : 











glBindTexture(GL_TEXTURE 2D, 0); 





这 行 代码 执行 完毕 之 后 ， 代 表 开 发 者 不 会 对 texId 纹 理 对 象 做 任何 操 
作 了 ， 所 以 上 面 这 行 代码 只 在 最 后 的 时 候 才 调用 。 接 下 来 就 是 最 关键 的 
部 分 ， 即 如 何 将 本 地 磁盘 上 的 一 个 PNG 的 图 片上 传 到 显卡 中 的 这 个 纹理 
对 象 上 。 在 将 图 片上 传 到 这 个 纹理 上 之 前 ， 首 先 应 该 要 对 这 个 纹理 对 象 
设置 一 些 参 数 ， 具 体 参 数 有 哪些 ?其 实 就 是 纹理 的 过 小 方式 ， 当 纹理 对 
象 〈 可 以 理解 为 一 张 图 片 ) 被 泻 染 到 物体 表面 上 的 时 候 (实际 上 是 
OpenGL 绘 制 管线 将 纹理 的 元 素 映 射 到 OpenGL 生 成 的 片段 上 的 时 候 )， 
有 可 能 要 被 放大 或 者 缩小 ， 而 当 其 放大 或 者 缩小 的 时 候 ， 具 体 应 该 如 何 
0 
避 < 和 


magnification 〈 放 大) : 























glTexParameteri(GL TEXTURE_ 2D, GL_TEXTURE MAG FILTER, GL_LINEAR); 





minification ( 纵 小 ): 





glTexParameteri(GL TEXTURE_ 2D, GL_TEXTURE MIN_FILTER, GL_LINEAR); 


~ 





一 般 在 视频 的 演 染 与 处 理 的 时 候 使 用 GL_LINEAR 这 种 过 滤 方 式 ， 
该 过 滤 方 式 称 为 双 线 性 过 滤 ， 可 使 用 双 线 性 插值 平滑 像素 之 间 的 过 渡 ， 
OpenGL 会 使 用 四 个 邻接 的 纹理 元 素 ， 并 在 它们 之 间 用 一 个 线性 插值 算 
法 做 插值 ， 该 过 滤 方 式 是 最 主要 的 过 滤 方 式 ， 当 然 OpenGL 中 还 提供 了 
另外 几 种 过 滤 方 式 。 常 见 的 有 GL_NEAREST， 称 为 最 邻近 过 滤 ， 该 方 
式 将 为 每 个 片段 选择 最 近 的 纹理 元 素 ， 但 是 当 其 放大 的 时 候 会 有 很 严重 
的 锯齿 效果 (因为 相当 于 将 原始 的 直接 放大 ， 其 实 就 是 降 采 样 )， 而 当 
其 缩小 的 时 候 ， 因 为 没有 足够 的 片段 来 绘制 所 有 的 纹理 单元 〈 这 个 是 真 
正 的 降 采 样 )， 许 多 细节 都 会 丢失 ; 相 较 于 这 两 种 过 滤 方 式 ， 本 书 在 使 
用 纹理 的 过 滤 方 式 时 都 会 选用 双 线 性 过 滤 的 过 滤 方 式 
(GL_LINEAR); 其 实 OpenGL 还 提供 了 另外 一 种 技术 ， 称 为 MIP 贴 
图 ， 但 是 这 种 技术 会 占用 更 多 的 内 存 ， 其 优点 是 泻 染 也 会 更 快 。 当 缩小 
和 放大 到 一 定 程度 之 后 效果 也 比 双 线 性 过 滤 的 方式 更 好 ， 但 是 其 对 纹理 
的 尺寸 以 及 内 存 的 占用 是 有 一 定 限制 的 ， 不 过 ， 在 视频 的 处 理 以 及 泻 染 
的 时 候 不 需要 放大 或 者 缩小 这 么 多 倍 ， 所 以 在 进行 视频 的 处 理 以 及 泻 染 
的 场景 下 ，MIP 贴 图 并 不 适用 。 


紧 接着 来 看 一 下 对 于 纹理 对 象 的 男 外 一 个 设置 ， 也 就 是 在 纹理 坐标 
0 00 3 
尺码 如 下 : 





























glTexParameteri(GL_ TEXTURE_ 2D, GL_TEXTURE WRAP_S, GL_CLAMP_TO_EDGE); 
glTexParameteri(GL_ TEXTURE_ 2D, GL_TEXTURE WRAP_T, GL_CLAMP_TO_EDGE); 











上 述 代码 所 表示 的 含义 是 ， 将 该 纹理 的 s 轴 和 t 轴 的 坐标 设置 为 
GL_CLAMP_TO_EDGE 类 型 ， 因 为 纹理 坐标 可 以 超出 0，1) 的 范 
围 ， 而 按照 上 述 设置 规则 ， 所 有 大 于 1 的 纹理 值 都 要 设置 为 1， 所 有 小 于 
0 的 值 都 要 置 为 0。 


接 下 来 ， 束 是 将 PNG 素 材 的 内 容 放 到 该 纹理 对 象 上 ，OpenGL 的 大 
部 分 纹理 一 般 都 只 接受 RGBA 类 型 的 数据 (否则 还 得 去 做 转化 ， 后 续 会 
讲 到 YUV420P 格 式 的 视频 帧 在 显卡 中 是 如 何 转换 为 RGBA 格 式 的 ) ， 所 
以 我 们 需要 对 PNG 这 种 压缩 格式 进行 解码 操作 ， 如 果 想 要 采用 一 种 更 通 
用 的 方式 ， 那 么 可 以 引用 libpng 库 来 进行 解码 操作 ， 当 然 也 可 以 使 用 各 
和 目 平台 的 API 进 行 解码 ， 最 终 可 以 得 到 RGBA 的 数据 。 待 得 到 RGBA 的 数 
据 之 后 ， 记 为 uint8_t 数 组 类 型 的 pixels， 然 后 执行 如 下 操作 : 








glLTexImage2D(GL_TEXTURE_2D，0，GL_RGBA，width，height，0，GL_RGBA， 
GL_UNSIGNED_BYTE, pixels); 


这 样 就 可 以 将 该 RGBA 的 数组 表示 的 像素 内 容 上 传 到 显卡 里 面 texId 
所 代表 的 纹理 对 象 中 去 了 ， 以 后 只 要 使 用 该 纹理 对 象 ， 其 实 表示 的 就 是 
这 个 PNG 图 片 。 


OpenGL 中 的 纹理 表示 如 何 为 物体 增加 细节 ， 现 在 我 们 已 经 准备 好 
了 该 纹理 ， 那 么 如 何 把 这 张 图 片 〈 或 者 说 这 个 纹理 ) 绘制 到 屏幕 上 呢 ? 
首先 来 看 一 下 OpenGL 中 的 物体 坐标 系 ， 如 图 4-8 所 示 ， 物 体 坐 标 系 中 x 
轴 从 左 到 右 是 从 -1 到 1 变化 的 ，y 轴 从 下 到 上 是 从 -1 到 1 变化 的 ， 物 体 的 中 
心 点 恰好 是 (0，0) 的 位 置 。 
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接 下 来 的 任务 就 是 如 何 将 这 个 纹理 绘制 到 屏幕 上 ， 其 实 相 关 的 基础 
知识 已 经 都 讲解 过 了 ， 首 先是 搭建 好 各 上 自 平台 的 OpenGL ES 的 环境 〈 包 
括 上 下 文 与 窗口 管理 ) ， 然 后 创建 显卡 可 执行 程序 ， 书 写 Vertex 
Shader， 代 码 如 下 : 





static char* COMMON_VERTEX_SHADER = 
"attribute vec4 position; \n" 
"attribute vec2 texcoord; \n" 
"Varying vec2 v_texcoord; \n" 


mm \n" 


"void main(void) \n" 
"{ \n" 
册 gl1_Position = position; \n" 
VvV_texcoord = texcoord; \n" 
"了 Nn'" 





在 客户 端 代码 中 ， 开 发 者 要 从 VertexShader 中 读 取 出 两 个 attribute， 
并 放置 到 全 局 变量 的 mGLVertexCoords 与 mGLTextureCoords 中 ， 接 下 来 
是 Fragment Shader 的 内 容 ， 代 码 如 下 所 示 : 








static char* COMMON_FRAG_SHADER = 


"precision highp float; \n" 
"varying highp vec2 v_texcoord; \n" 
"uniform sampler2D texSampler; \n" 
mh \n" 
"void main() { \n" 
3 gl1_FragColor = texture2D(texSampler, v_texcoord); \n" 
"了 Nn'" 





从 FragmentShader 中 读 取 出 来 的 uniform 会 放置 到 
mGLUniformTexture 变 量 里 ， 利 用 上 面 两 个 Shader 创 建 好 的 Program， 称 
人 紧 接着 进行 真正 的 绘制 操作 ， 下 面 将 详细 地 讲解 一 下 绘 
制 部 分 。 


1) 规定 窗口 的 大 小 : 








glViewport(0, 0, screenWwidth, screenHeight); 





假定 ScreenWidth 表 示 绘 制 区 域 的 宽度 ，screenHeight 表 示 绘 制 区 域 
的 高 度 。 


2) 使 用 显卡 绘制 程序 : 





glUseProgram(mGLProgId); 





3) 设置 物体 坐标 : 





GLfloat vertices[] = { -1.0f，-1.0f，1.0f，-1.0f，-1.0f，1.0f，1.0f，1.0f }; 
glVertexAttribPpointer(mGLVertexCoords, 2, GL_FLOAT, 0, 0, vertices); 
glEnableVertexAttribArray(mGLVertexCoords); 





4) 设置 纹理 坐标 : 





GLfloat texCoords1[] = { 0.0f, ©0.0f, 1.0f, 0.0f, 0.0f, 1.0f, 1.0f, 1.0f }; 
GLfloat texCoords2[] = { 0.0f, 1.0f, 1.0f, 1.0f, 0.0f, 0.0f, 1.0f, 0.0f }; 
glVertexAttribPpointer(mGLTextureCoords, 2, GL_FLOAT, 0, 0, texCoords2); 
glEnableVertexAttribArray(mGLTextureCoords); 





这 里 需要 注意 的 是 texCoords2 这 个 纹理 坐标 ， 因 为 其 纹理 对 象 是 将 
一 个 PNG 图 片 的 RGBA 格 式 的 形式 上 传 到 显卡 上 〈 即 计算 机 坐标 )， 如 
果 该 纹理 对 象 是 OpenGL 中 的 一 个 普通 纹理 对 象 ， 则 需要 使 用 
texCoords1， 这 两 个 纹理 坐标 恰恰 就 是 要 做 一 个 上 下 的 翻转 ， 从 而 将 计 
算 机 坐标 系 和 OpenGEL 坐 标 系 进 行 转换 。 


5) 指定 将 要 绘制 的 纹理 对 象 并 且 传 递 给 对 应 的 FragmentShader: 








glActiveTexture(GL_TEXTUREOQ); 
glBindTexture(GL_TEXTURE 2D, texId); 
glUyniform1ii(mGLUniformTexture, 0); 





6) 执行 绘制 操作 : 





glDrawArrays(GL_TRIANGLE_ STRIP, ©0, 4); 





至 此 就 可 以 在 绘制 区 域 “ 屏 幕 ) 绘制 出 最 初 的 PNG 图 片 了 。 
_ 如 采 该 纹理 对 象 不 再 使 用 了 ， 则 需要 将 其 删除 反 ， 需 要 执行 的 代码 


XE 





glDeleteTextures(1, &texId); 





当然 ， 只 有 在 最 终 不 再 使 用 这 个 纹理 的 时 候 才 会 调用 上 述 这 个 方 
法 ， 如 果 不 调 用 该 方法 则 会 造成 显存 的 泄漏。 


具体 的 实例 请 读者 参考 代码 仓库 中 的 OpenGLRenderer 项 目 ， 注 意 ， 
Android 项 目 首先 需要 把 resource 目 录 下 的 PNG 图 片 放 到 运行 设备 的 
sdcard 的 根 目 录 之 下 。 


4.4 ”本章 小 结 


本 章 主 要 介绍 了 移动 端 音 视频 的 泻 染 ， 音 频 使 用 对 应 平台 提供 的 
API 进 行 演 染 ， 其 中 在 iOS 平 台 使 用 AudioUnit 进 行 演 染 音 频 ， 在 Android 
平台 分 别 讲解 了 使 用 AudioTrack 以 及 OpenSL ES 来 泻 染 音频 。 视 频 使 用 
跨 平台 的 OpenGL ES 方案 进行 泻 染 ， 但 是 OpenGL ES 需要 各 自 平台 提供 
对 应 的 窗口 管理 与 上 下 文 环境 ， 所 以 也 讲解 了 Android 与 iDS 平 台 对 于 
OpenGL ES 的 窗口 管理 与 上 下 文 环境 的 创建 。 最 后 还 讲解 了 OpenGL ES 
中 的 纹理 ， 理 解 纹理 的 概念 以 及 用 法 是 非常 重要 的 ， 因 为 在 本 书后 边 所 
有 与 OpenGL ES 相关 的 处 理 都 与 纹理 明明 相关 。 本 间作 为 移动 端 首 视 频 
领域 开发 的 基础 部 分 ， 请 读者 结合 源码 仓库 中 的 实例 加 深 理 解 。 

















第 5 革 ”实现 一 球 视 频 播放 如 


前 3 章 讨论 了 许多 音 视频 相关 的 知识 ， 包 括 音 视频 的 基本 概念 ， 如 
何 搭建 移动 平台 下 的 开发 环境 ， 并 学 习 了 FFmpeg 以 及 使 用 FFmpeg 解 码 
的 方法 ， 第 4 章 学 习 了 如 何 将 音 视 频 的 裸 数 据 演 染 到 便 件 设备 上 。 所 以 
现在 我 们 完全 可 以 做 一 个 实际 的 大 项 目 视频 播放 器 ， 该 项 目 能 够 把 
之 前 所 学 的 知识 串联 起 来 ， 并 且 还 可 以 学 习 到 多 线程 控制 、 音 视频 同步 
等 一 些 知识 ， 那 么 实现 一 款 视频 播放 堪 具 体 需 要 开发 者 做 哪些 工作 呢 ， 
本 章 将 带领 大 家 逐步 来 实现 。 





5.1 架构 设计 


首先 来 看 一 下 播放 需 需 要 为 用 户 提供 哪些 功能 : 能 够 从 零 开 始 播放 
(当然 要 保证 普 画 对 齐 ); 文 持 暂停 和 继续 播放 功能 ， 文 持 seek 功 能 
( 束 是 可 以 随意 拖 动 到 任意 位 置 并 仍然 可 以 继续 播放 〉 ， 有 的 播放 融 还 
文 持 快 进 、 快 退 15s。 下 面 先 来 实现 最 基本 的 功能 ， 即 播放 露 能 够 从 零 
开始 播放 、 和 暂停 和 继续 。 


首先 来 思考 一 下 要 实现 的 场景 ， 播 放 器 可 以 从 零 开 始 播放 直到 结 
束 。 如 果 直 接 抛 出 这 样 一 个 项 目 ， 我 们 很 容易 找 不 到 任何 头绪 ， 但 是 作 
为 一 个 开发 人 员 ， 要 做 的 事情 就 是 把 复杂 的 问题 简单 化 ， 简 单 的 问题 条 
理化 ， 最 终 按 照 拆 分 得 非常 细 的 模块 来 逐个 实现 。 基 于 这 个 项 目 ， 我 们 
需要 思考 以 下 几 个 问题 : 


输入 是 什么 ? 
输出 是 什么 ? 
“可 以 划分 为 几 个 模块 ? 
-每 个 模块 的 职责 是 什么 ? 


下 面 对 问 题 逐 个 进行 梳理 ， 首 先 要 摘 清 楚 输 入 是 什么 ， 输 入 既 可 以 
是 本 地 磁盘 上 的 一 个 媒体 文件 〈 可 能 是 ELV、MP4、AVI、MOV 等 格式 
的 文件 ) ， 也 可 以 是 网 络 上 的 一 个 媒体 文件 (可 能 是 HTTP、RTMP、 
HLS 等 协议 ) ， 这 就 是 我 们 确定 的 输入 ;那么 输出 又 是 什么 呢 ? 输出 就 
是 让 扬声器 播放 视频 中 的 音频 使 用 户 的 耳 条 可 以 听 到 声音 ， 让 屏幕 显示 
视频 画面 使 用 户 的 眼睛 可 以 看 到 画面 ， 同 时 ， 听 到 的 声音 和 看 到 的 画面 
必须 是 同步 的 〈 也 就 是 说 不 能 让 用 户 听 到 的 是 “你 好 ”的 发 音 ， 看 到 的 却 
0 0 
理 的 职责 。 


对 于 输入 部 分 的 分 析 具 体 如 下 ， 输 入 有 可 能 是 不 同 的 协议 ， 比 如 说 
file (本 地 磁盘 的 文件 ) ， 或 者 是 HTTP、RTMP、HLS 协 议 等 ， 也 有 可 
能 是 不 同 的 封装 格式 ， 比 如 说 MP4、FLV、MOV 等 封装 格式 ， 而 对 于 这 
些 封装 格式 里 面 的 内 容 ， 会 有 两 路 流 ， 分 别 是 音频 流 和 视频 流 ， 我 们 需 
要 将 这 两 路 流 都 解码 为 裸 数 据 。 待 视频 流 和 音频 流 都 解码 为 裸 数据 之 





























后 ， 需 要 为 音 视 频 各 目 建 立 一 个 队列 将 梨 数 据 存 储 起 来 ， 不 过 ， 如 果 是 
在 第 要 播放 一 帧 的 时 候 再 去 做 解码 ， 那 么 这 一 帧 的 视频 残 有 可 能 产生 卡 
顿 或 者 延迟 ， 所 以 这 里 引出 了 第 一 个 线程 ， 即 为 播放 器 的 后 台 解 码 分 配 
一 个 线程 ， 该 线程 用 于 解析 协议 ， 处 理解 封装 以 及 解码 ， 并 最 终 将 裸 数 
据 放 到 音频 和 视频 的 队列 中 ， 这 个 模块 称 为 输入 模块 。 


下 面 再 来 看 输出 部 分 ， 输 出 部 分 其 实 是 由 两 部 分 组 成 的 ， 一 部 分 古 
首 频 的 输出 ， 男 一 部 分 是 视频 的 输出 。 不 过 可 以 确定 的 是 ， 不 论 是 首 频 
的 输出 还 是 视频 的 输出 ， 它 们 都 会 用 一 个 线程 来 进行 管理 ， 这 两 个 模块 
应 该 先 从 队列 中 获取 音 视 频 的 裸 数据 ， 然 后 分 别 进行 音 视 频 的 泻 染 ， 并 
最 终 发 布 到 扬 声 闫 和 屏 医 上 ， 使 得 用 户 可 以 听 得 到 、 看 得 到 ， 这 两 个 模 
块 称 为 音频 输出 和 视频 输出 模块 。 


下 面 再 来 思考 一 件 事情 ， 由 于 输出 模块 都 在 各 目的 线程 中 ， 音 频 和 
视频 均 是 单独 播放 ， 这 束 导 致 了 两 个 输出 模块 的 播放 频率 以 及 线程 控制 
没有 任何 关系 ， 从 而 无 法 保证 音 画 对 齐 。 我 们 规划 的 各 个 模块 里 ， 好 像 
还 没有 一 个 模 英 的 职 贡 是 负责 音 视 频 同 步 的 ， 所 以 需要 再 建立 一 个 模块 
来 负责 相关 的 工作 ， 这 个 模块 称 为 音 视 频 同步 模块 。 


至 此 ， 模 块 剖 已 拆 分 完毕 ， 上 县 体 的 模块 分 布 如 图 5-1 所 示 。 


不 过 ， 我 们 还 应 该 再 写 一 个 调度 器 ， 将 这 几 个 模块 组 装 起 来 。 也 就 
是 说 ， 先 把 输入 模块 、 音 频 队 列 、 视 频 队 列 都 封装 到 音 视 频 同步 模块 
中 ， 然 后 为 外 界 提供 获取 音频 数据 、 视 频数 据 的 接口 ， 这 两 个 接口 必须 
保证 音 视 频 的 同步 ， 内 部 将 负责 解码 线程 的 运行 与 暂停 的 维护 。 然 后 把 
音 视 频 同步 模块 、 音 频 输出 模块 、 视 频 输 出 模块 都 封装 到 调度 器 中 ， 调 
度 器 模块 会 分 别 向 音频 输出 模块 和 视频 输出 模块 注册 回调 函数 ， 回 调 函 
数 人 允许 两 个 输出 模块 获取 音频 数据 和 视频 数据 。 这 样 就 可 以 对 类 图 设计 
做 进一步 整理 了 ， 如 图 5-2 所 示 。 


图 5-2 详 细 的 解释 具体 如 下 。 


“VideoPlayerController: 调度 器 ， 内 部 维护 首 视频 同步 模块 、 音 频 
输出 模块 、 视 频 输出 模块 ， 为 客户 端 代码 提供 开始 播放 、 和 暂停 、 继 续 播 
人 

JJ 二 上 口 。 























架构 设计 图 
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图 5-2 


.AudioOutput: 音频 输出 模块 ， 由 于 在 不 同 平台 上 有 不 同 的 实现 ， 
所 以 这 里 真正 的 声音 演 染 API 为 Void 类 型 ， 但 是 音频 的 演 染 要 放 在 一 个 
单独 的 线程 (不 论 是 平台 API 自 动 提供 的 线程 ， 还 是 我 们 主动 建立 的 线 
程 ) 中 进行 ， 所 以 这 里 有 一 个 线程 的 变量 ， 在 运行 过 程 中 会 调用 注册 过 
来 的 回调 函数 来 获取 音频 数据 。 

.VideoOutput: 视频 输出 模块 ， 虽 然 这 里 统一 使 用 OpenGL ES 来 泻 


染 视频 ， 但 是 前 文 已 提 到 过 ，OpenGL ES 的 具体 实现 在 不 同 的 平台 上 也 
会 有 自己 的 上 下 文 环境 ， 所 以 这 里 采用 了 Void 类 型 的 实现 ， 当 然 ， 必 须 











由 我 们 主动 开启 一 个 线程 来 作为 OpenGL ES 的 演 染 线程 ， 它 会 在 运行 过 
程 中 调用 注册 过 来 的 回调 函数 来 获取 视频 数据 。 


-AVSynchronizer: 首 视频 同步 模块 ， 会 组 合 后 文 将 要 讲 到 的 输入 模 
块 、 音 频 队 列 和 视频 队列 ， 其 主要 为 它 的 客户 端 代码 
VideoPlayerController 调 度 器 提供 接口 ， 包 括 : 开始 、 结 束 ， 以 及 最 重要 
的 获取 音频 数据 和 获取 对 应 时 间 惟 的 视频 帧 。 此 外 ， 它 还 会 维护 一 个 解 
所 并 且 根 据 音 视频 队列 里 面 的 元 素数 目 来 继续 或 者 暂停 该 解码 线 
时 的 运行 。 


.AudioFrame: 音频 帧 ， 其 中 记录 了 音频 的 数据 格式 以 及 这 一 帧 的 
具体 数据 、 时 间 惟 等 信息 。 


.AudioFrameQueue: 音频 队列 ， 主 要 用 于 存储 音频 帧 ， 为 它 的 客户 
端 代 码 音 视频 同步 模块 提供 压 入 和 弹出 操作 ， 由 于 解码 线程 和 声音 播放 
线程 会 作为 生产 者 和 消费 者 同时 访问 该 队列 中 的 元 素 ， 所 以 该 队列 要 保 
证 线程 安全 性 。 


“VideoFrame: 视频 帧 ， 记 录 了 视频 的 格式 以 及 这 一 怖 的 基体 的 数 
据 、 宽 、 高 以 及 时 间 戳 等 信息 。 


.VideoFrameQueue: 视频 队列 ， 主 要 用 于 存储 视频 帧 ， 为 它 的 客户 
端 代 码 音 视频 同步 模块 提供 压 入 和 弹出 操作 ， 由 于 解码 线程 和 视频 播放 
线程 会 作为 生产 者 和 消费 者 同时 访问 该 队列 中 的 元 素 ， 所 以 该 队列 要 保 
证 线程 安全 性 。 


.VideoDecoder: 输入 模块 ， 其 职责 在 前 面 已 经 分 析 过 了 ， 由 于 还 没 
有 确定 具体 的 技术 实现 ， 所 以 这 里 先 根据 前 面 的 分 析 暂 时 写 了 三 个 实例 
变量 ， 一 个 是 协议 层 解析 器 ， 一 个 是 格式 解 封 装 器 ， 一 个 是 解码 器 ， 并 
日 它 主要 问 AVSynchronizer 提 供 接 口 : 打开 文件 资源 (网 络 或 者 本 
地 ) 、 关 闭 文 件 资源 、 解 码 出 一 定时 间 长 上 度 的 普 视 频 帧 。 


至 此 我 们 根据 用 户 场景 (Case) 把 视频 播放 需 拆 解 成 了 各 个 模块 ， 
并 且 根 据 模块 的 调用 关系 画 出 了 关 图 ， 那 么 接 下 来 要 做 的 事情 就 应 该 是 
拆 分 每 个 模块 的 具体 实现 。 


站 先是 输入 模块 ， 如 果 是 自己 编写 代码 处 理 这 些 不 同 的 协议 、 封 装 
格式 ， 以 及 编 解码 格式 〈 更 专业 地 来 讲 是 各 种 解码 器) ， 肯 定 会 是 非 第 
































复杂 也 极其 不 合理 的 ， 因 为 这 套 东 西 已 经 非常 成 熟 了 ， 自 行 实现 需要 付 
出 很 大 的 开发 与 测试 成 本 ， 并 且 最 终 效果 也 不 会 太 理想 。 而 基于 我 们 现 
在 所 掌握 的 知识 ， 可 选择 FFmpeg 开 源 库 的 libavformat 模 块 来 处 理 各 种 不 
同 的 协议 以 及 不 同 的 封装 格式 。 在 解 封 装 成 每 一 路 流 之 后 ， 接 下 来 就 需 
要 进行 解码 的 操作 ， 当 然 ， 最 简单 的 也 可 以 直接 使 用 FFmpeg 的 
libavcodec 模 块 来 进行 ， 但 是 如 果 需 要 更 高 性 能 的 解码 ， 那 么 开发 者 可 
以 使 用 Android 和 iOS 平 台 各 目的 硬件 解码 器 。 本 章 暂 时 先 不 考虑 优化 ， 
只 是 先 快速 实现 出 一 套 方案 ， 使 用 软件 解码 会 是 一 种 比较 好 的 选择 ， 所 
以 本 章 将 使 用 FFmpeg 的 libavcodec 模 块 作为 解码 器 模块 的 技术 选 型 。 


其 实 对 于 架构 来 说 ， 没 有 最 好 的 设计 ， 只 有 最 合适 的 设计 。 在 这 
里 ， 硬 件 解码 器 对 于 系统 平台 是 有 限制 的 ， 同 时 还 会 有 一 些 兼 容 性 问 
题 ， 并 且 两 个 平台 还 需要 分 别 编写 代码 来 实现 各 目的 人 硬件 解码 器 ， 并 将 
便 件 解码 器 解码 出 来 的 数据 转换 为 可 用 于 显示 的 视频 帧 数据 结构 。 因 为 
本 章 需 要 快速 实现 各 个 模块 ， 所 以 这 里 选择 使 用 软件 解码 侨 ， 同 时 它 有 
更 高 的 兼容 性 以 及 更 简单 的 API 调 用 。 以 后 很 可 能 需要 通过 硬件 解码 来 
提升 性 能 ， 所 以 在 设计 解码 模块 的 时 候 可 以 更 多 地 使 用 面 问 接口 的 设 
计 ， 以 便 日 后 更 加 方便 地 答 换 实现 。 


其 次 是 音频 输出 模块 ， 首 频 的 输出 其 实 有 很 多 种 方式 ， 下 面 束 来 分 
别 分 析 一 下 ， 首 先是 Android 平 台 ， 最 常用 的 就 是 Java 层 的 AudioTrack 和 
Native 层 的 OpenSL ES。 主 要 代码 处 于 Native 层 ， 在 AudioTrack 和 
OpenSL ES 之 间 ， 应 该 选择 OpenSL ES， 因 为 其 省 去 了 JNI 的 数据 传递 ， 
并 且 OpenSL ES 在 播放 声音 方面 的 延迟 更 低 ， 其 缺点 是 所 提供 的 API 比 
起 AudioTrack 的 不 够 友好 ， 调 试 也 不 太 方 便 ， 但 是 从 总 体 来 分 析 ， 还 是 
选择 OpenSL ES 更 合适 ;对 于 iOS 平 台 ， 其 实 也 有 很 多 种 方式 ， 比 较 稼 
见 的 就 是 AudioQueue 和 AudioUnit，AudioQueue 是 更 高 层次 的 音频 APT， 
是 建立 在 AudioUnit 的 基础 之 上 的 ， 其 所 提供 的 API 更 加 简单 ， 在 这 里 其 
实 选 用 AudioQueue 可 能 会 更 加 合适 ， 但 是 我 们 最 终 还 是 会 选用 
AudioUnit， 对 此 ， 有 如 下 几 个 原因 : 首先 可 能 存在 音频 格式 的 转换 ， 
这 时 AudioUnit 会 更 加 方便 ， 并 且 这 里 还 需要 为 后 续 的 录音 、 音 效 处 理 
打下 使 用 AudioUnit 的 基础 ， 所 以 这 里 将 直接 选择 AudioUnit 作 为 实现 。 


然后 是 视频 输出 模块 ， 对 此 ， 技 术 选 型 肯定 是 选择 OpenGL ES， 
为 我 们 可 以 利用 它 非常 高 效率 的 泻 染 视 频 ， 不 论 是 在 Android 平 台 还 是 
在 iOS 平 台 ， 前 面 也 已 经 学 习 了 如 何在 Android 平 台 和 iOS 平 台 搭 建 
OpenGL ES 的 环境 。 此 外 ， 在 这 里 使 用 OpenGL ES 还 有 一 个 好 处 ， 那 就 
































是 我 们 可 以 利用 OpenGL ES 处 理 图 像 的 巨大 优势 ， 来 对 视频 做 一 个 后 期 
处 理 ( 通 过 去 块 滤波 器 、 增 加 对 比 度 等 效果 器 的 使 用 ) ， 让 用 户 感觉 视 
频 更 加 清晰 。 在 Android 平 台 上 使 用 EGL 来 为 OpenGL ES 提供 上 下 文 环 
范 ， 使 用 SurfaceView 的 Surface 来 构造 显示 对 象 ， 并 最 终 输 出 到 
SurfaceView 上; 在 iOS 平 台 上 使 用 EAGL 来 为 OpenGL ES 提供 上 下 文 环 
境 ， 自 己 定义 一 个 View 继 承 自 UIView， 使 用 EAGLLayer 作 为 泻 染 对 
象 ， 并 最 终 演 染 到 这 个 自 定义 的 View 上 。 


至 于 音 视 频 同 步 模块 ， 这 里 不 会 涉及 任何 与 平台 相关 的 API， 不 
过 ， 考 虑 到 它 要 维护 解码 线程 ， 因 此 pthread 其 实 是 一 个 很 好 的 选择 ， 
为 两 个 平台 都 支持 这 种 线程 模型 。 此 外 ， 它 还 需要 维护 两 个 队列 ， 由 于 
STL 中 提供 的 队列 不 能 保证 线程 的 安全 性 ， 所 以 对 于 音 视 频 队 列 ， 我 们 
可 以 自行 编写 一 个 保证 线程 安全 的 链表 来 实现 。 最 后 要 负责 音 视 频 的 同 
步 ， 由 于 音 视 频 同 步 的 策略 在 前 面 的 章节 中 已 经 提 到 过 ， 因 此 这 里 采用 
视频 同音 频 对 齐 的 策略 ， 即 只 需要 把 同步 这 块 逻辑 放 到 获取 视频 帧 的 方 
法 里 面 束 好 了 。 


最 后 是 控制 占 ， 控 制 器 需要 将 上 述 的 三 个 模块 合理 地 组 装 起 来 。 在 
开始 播放 的 时 候 ， 需 要 把 资源 的 地 址 〈 有 可 能 是 本 地 的 文件 ， 也 有 可 能 
是 网 络 的 资源 文件 ) 传递 给 AVSynchronizer， 如 果 能 够 成 功 地 打开 文 
件 ， 那 么 就 去 实例 化 VideoOutput 和 AudioOutput， 在 实例 化 这 两 个 类 的 
同时 ， 要 传 入 回调 函数 ， 这 两 个 回调 函数 又 将 分 别 调用 AVSynchronizer 
里 面 的 获取 首 频 和 视频 帧 的 方法 ， 这 样 就 可 以 有 序 地 组 织 多 个 模块 ， 最 
终 如 果 要 调用 和 暂停、 继续 或 停止 的 指令 ， 上 自然 也 就 会 调用 各 个 模块 对 应 
的 生命 周期 方法 。 


前 文中 笔者 将 每 个 模块 的 具体 实现 梳理 了 一 过 ， 这 样 ， 其 实 架 构 已 
经 基本 成 型 了 ， 但 是 对 于 架构 师 来 说 ， 做 到 这 些 还 是 不 够 的 ， 因 为 优秀 
的 架构 师 必 须 在 做 完整 个 架构 之 后 ， 再 针对 该 染 构 给 出 风险 评估 与 部 分 
测试 用 例 ， 下 面 也 将 来 逐一 分 析 一 下 。 


首先 是 风险 评估 ， 由 于 我 们 所 做 的 最 终 项 目 是 运行 在 移动 平台 上 
的 ， 所 以 对 于 移动 平台 的 碎 卢 化 设备 〈 尤 其 是 Android 平 全 的 碎片 化 更 
加 严重 ) 这 一 特点 ， 必 须要 有 足够 多 的 设备 作为 测试 目标 ， 以 保证 没有 
兼容 性 方面 的 问题 ， 设 备 所 述 的 平台 架构 也 应 该 履 关 到 arm、armv7、 
arm64 等 平台 。 然 后 必须 要 测试 性 能 问题 ， 性 能 包括 CPU 消耗 、 内 存 占 
用 、 耗 电量 与 发 热量 ， 而 针对 这 些 风险 ， 在 这 一 期 项 目 中 可 能 会 有 一 些 
问题 无 法 得 到 解决 ， 因 此 我 们 的 长 期 计划 就 应 该 在 这 些 方面 进行 改进 。 
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其 实 ， 目 前 来 说 最 大 的 风险 就 是 软件 解码 这 部 分 ， 因 此 从 长 期 来 看 ， 需 
要 有 硬件 解码 的 符 代 方案 。 


对 于 测试 用 例 ， 我 们 应 该 从 以 下 几 个 方面 进行 测试 ， 首 先是 输入 模 
块 ， 包 括 协 议 层 〈 网 络 资源 、 本 地 资源 ) 、 封 装 格式 (FLV、MP4、 
MOV、AVI 等 ) 、 编 码 格式 (H264、AAC、WAV) 等 ， 其 次 是 音 视 频 
司 步 模块 ， 应 该 在 低 网 速 的 条 件 下 观看 网 络 资源 的 对 齐 程度 ， 最 后 是 两 
个 输出 模块 ， 测 试 应 该 要 有 覆盖 i0S 系 统 和 Android 系 统 的 大 部 分 系统 版 
本 ， 以 及 最 终 应 用 运行 的 Top10 的 所 有 设备 的 音频 和 视频 播放 的 兼容 











完成 了 风险 评估 和 基本 的 测试 用 例 之 后 ， 至 此 我 们 的 染 构 算是 比较 
完善 了 ， 接 下 来 会 逐一 实现 每 个 模块 。 


5.2 解码 模块 的 实现 


本 节 先 来 介绍 输入 模块 的 具体 实现 ， 即 类 图 〈 见 图 5-2) 中 的 
VideoDecoder 类 的 实现 ， 前 面 在 讨论 技术 定型 的 时 候 已 经 说 过 ， 我 们 会 
直接 使 用 FFmpeg 开 源 库 来 负 贡 输入 模块 的 协议 解 机、 封装 格式 拆 分 、 
解码 操作 等 行为 ， 整 体 流程 如 图 5-3 所 示 。 


首先 ， 来 看 一 下 整体 的 运行 流程 ， 整 个 运行 流程 分 为 以 下 几 个 阶 








段 

1) 建立 连接 、 准 备 资源 阶段 。 

2) 不 断 读 取 数 据 进行 解 封 汶 、 和 解码、 处 理 数据 阶段 。 

3) 释放 资源 阶段 。 

以 上 束 是 输入 端的 整体 流程 ， 其 中 第 二 个 阶段 会 是 一 个 循环 ， 并 且 
放 在 单独 的 线程 中 来 运行 ， 由 于 具体 的 API 调 用 已 经 在 前 面 章节 中 做 过 
详细 的 介绍 ， 并 且 在 本 章 的 代码 仓库 中 也 可 以 找到 对 应 的 源码 ， 因 此 这 


里 束 不 再 罗列 源码 了 ， 而 是 基体 来 看 一 下 这 个 类 中 几 个 重要 的 接口 是 如 
何 设 计 与 实现 的 。 
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图 5-3 


先 来 看 openFile 接 口 的 具体 实现 ， 该 接口 主要 负责 建立 与 媒体 资源 
的 连接 通道 ， 并 且 分 配 一 些 全 局 需要 用 到 的 资源 ， 将 建立 连接 的 通道 与 
分 配 资 源 的 结果 返回 到 调用 端 。 在 此 过 程 中 ， 首 先是 与 媒体 资源 建立 连 
接 通 道 ， 然 后 找 出 该 资源 所 包含 的 流 的 信息 (其 实 是 对 应 的 各 个 Stream 
的 MetaData， 比 如 声音 轨 的 声 道 数 、 采 样 率 、 表 示 格 式 或 者 视频 轨 的 
宽 、 高 、 印 s 等 ) 。 如 果 是 网 络 资源 ， 那 么 在 找 出 流 信息 失败 的 时 候 可 














以 进行 重 试 (具体 的 重 试 逻 辑 可 以 根据 不 同 的 业务 场景 进行 设置 ， 在 我 
们 的 代码 中 设置 的 是 重 试 3 次 的 策略 ) 。 在 找 出 流 信息 的 这 一 阶段 需要 
使 用 到 前 面 建立 起 来 的 连接 通道 ， 并 且 FFmpeg 提 供 的 找 出 流 信息 
Cav_find_stream_info) 的 API 其 实 是 可 以 设置 参数 来 控制 方法 的 执行 时 
间 的 。 对 于 本 地 资源 ， 该 过 程 寻找 MetaData 是 很 快 的 ， 不 过 ， 如 果 是 网 
络 资源 ， 那 就 需要 一 段 时 间 了 。 第 3 章 中 己 经 介绍 过 find_stream_info 也 
数 的 内 部 实现 ， 因 为 会 发 生 实际 的 解码 行为 ， 所 以 解码 的 数据 越 多 ， 所 
花费 的 时 间 也 会 越 长 ， 对 应 得 到 的 MetaData 也 会 越 准 确 ， 对 此 ， 一 般 是 
通过 设置 probesize 和 max_analyze_duration 这 两 个 参数 来 给 出 探测 数据 量 
的 大 小 和 最 大 的 解析 数据 的 长 度 ， 其 值 常 设置 为 50x1024 和 75000， 如 果 
达到 了 设置 的 值 却 还 没有 解析 出 对 应 的 视频 流 和 音频 流 的 MetaData， 那 
么 就 返回 失败 ， 紧 接着 会 进入 重 试 策略 ， 如 果 可 以 解析 到 整 将 对 应 的 流 
信息 填充 到 对 应 的 结构 体 中 。 在 找 出 对 应 的 流 信息 之 后 ， 接 下 来 就 是 要 
打开 每 个 流 的 解码 器 〈 有 时 声音 有 两 路 流 ， 有 的 播放 器 中 可 以 允许 切 
换 ， 就 像 我 们 之 前 所 说 的 ffplay 就 文 持 带 入 参数 进行 选择 ，VLC 播 放 器 
可 以 实时 切换 ， 本 项 目 中 只 选择 第 一 个 音频 流 ) 。 最 后 ， 对 于 每 个 流 都 
要 分 配 一 个 AVFrame 作 为 解码 之 后 数据 存放 的 结构 体 ， 对 于 首 频 流 ， 需 
要 额外 分 配 一 个 重 采 样 的 上 下 文 ， 对 解码 之 后 的 音频 格式 进行 重 采 样 ， 
使 其 成 为 我 们 需要 的 PCM 格 式 ， 这 里 仅 进 行 资源 分 配 ， 有 具体 的 解码 和 转 
换行 为 后 续 再 讲 。 


其 次 是 decodeFrames 接 口 的 实现 ， 该 接口 主要 负责 解码 音 视 频 压缩 
数据 成 为 原始 格式 ， 并 且 封 装 成 为 自 定义 的 结构 体 ， 最 终 全 部 放 到 一 个 
数组 中 ， 然 后 返回 给 调用 端 。 首 先 需要 读 取 一 个 压缩 数据 帧 ， 对 应 于 
FFmpeg 里 面 的 AVPacket 结 构 体 ， 对 此 ， 前 文中 也 有 过 详细 的 介绍 ; 对 
于 视频 帧 ， 一 个 AVPacket 就 是 一 帧 视频 由 ;对 于 音频 帧 ， 一 个 
AVPacket 有 可 能 包含 多 个 音频 帧 ， 所 以 对 于 一 个 AVPacket 判 定 了 类 型 
《音频 类 型 还 是 视频 类 型 ) 之 后 ， 其 所 调用 的 解码 方法 是 不 一 样 的 ， 视 
频 部 分 仅 需 要 解码 一 次 ， 而 音频 部 分 则 需要 判定 该 AVPacket 里 面 的 压缩 
数据 是 否 已 被 全 部 消耗 干净 了 ， 并 以 此 作为 结束 的 条 件 。 解 码 结束 之 
后 ， 需 要 提取 出 对 应 的 裸 数 据 填 充 到 我 们 自 定义 的 结构 体 ， 并 全 部 存 入 
数组 中 ， 然 后 返回 给 外 界 调用 端 ， 为 什么 要 这 么 做 呢 ? 因 为 我 们 不 希望 
癌 外 界 暴 露 Input 模 块 内 部 所 使 用 的 技术 细节 ， 即 不 希望 回 客 户 端 代码 暴 
圳 其 中 使 用 的 到 底 是 FFmpeg 的 解码 器 库 还 是 人 硬件 解码 右 或 者 是 其 他 的 
解码 喜 等 细节 。 所 以 解码 之 后 ， 需 要 封装 成 目 定 义 的 结构 体 的 
AudioFrame 和 VideoFrame， 有 具体 如 何 操作 ， 前 面 章 节 中 也 已 经 提 到 过 ， 
或 者 直接 查看 源码 也 可 以 了 解 。 





























这 里 有 一 点 比较 特殊 的 是 ， 如 果 音 频 或 者 视频 解码 出 来 的 表示 方式 
与 我 们 预期 的 表示 方式 不 一 样 ， 那 么 就 需要 做 个 转换 。 对 于 音频 和 视频 
FFmpeg 分 别提 供 了 不 同 的 API 来 完成 转换 操作 ， 有 具体 如 下 

外。 


.对 于 音频 的 格式 转换 ，FFmpeg 提 供 了 一 个 libswresample 库 ， 开 发 
者 只 需要 把 原始 音频 的 格式 〈 包 括 声 道 、 采 样 率 、 表 示 格 式 ) 和 目标 音 
频 的 格式 〈 包 括 声 道 、 采 样 率 、 表 示 格 式 ) 传递 给 这 个 库 的 初始 化 上 下 
文 方法 (swr_alloc_set _opts) ， 就 可 以 构造 出 一 个 重 采 样 上 下 文 ， 然 后 
调用 swr_convert 将 解码 器 输出 的 AVFrame 传 递 进来 ， 那 么 重 采 样 之 后 的 
数据 就 是 开发 者 所 期 望 的 音频 格式 的 数据 了 ， 最 终 使 用 完毕 之 后 再 调用 
swr_free 方 法 即 可 释放 挥 重 采样 上 下 文 。 


.对 于 视频 帧 的 格式 转换 ，FFmpeg 提 供 了 一 个 libswscale 的 库 ， 用 于 
转换 视频 的 裸 数 据 的 表示 格式 ， 如 果 原 始 视 频 的 裸 数据 其 表示 格式 不 是 
YUV420P， 那 么 就 需要 使 用 该 库 来 将 非 YUV420P 格 式 的 视频 数据 转换 
为 YUV420P 格 式 。 转 换 方式 也 很 简单 ， 就 是 把 源 的 格式 (包括 视频 
宽 、 高 、 表 示 格 式 ) 和 目标 的 格式 (包括 视频 党、 高 、 表 示 格 式 ) 传递 
给 该 库 的 获取 上 下 文 方法 (sws_getCachedContext) ， 以 构造 出 转换 视 
频 的 上 下 文 ， 然 后 在 需要 使 用 的 时 候 调 用 sws_scale 将 解码 器 输出 的 
AVFrame 传 递 进来 ， 那 么 转换 之 后 的 视频 数据 就 存在 于 AVPicture 结 构 
体 里 面 了 ， 最 终 我 们 可 以 从 AVPicture 里 面 再 提取 出 对 应 的 数据 封装 到 
的 结构 体 中 ， 使 用 完毕 之 后 调用 sws_freeContext 来 销毁 掉 访 转换 

下 Ys 


销毁 资源 阶段 的 实现 ， 与 打开 流 阶 段 恰 恰 相 反 ， 首 先 要 销毁 掉 音 频 
相关 的 资源 ， 包 括 分 配 的 AVFrame 以 及 音频 解码 器 〈 如 果 分 配 了 重 采 样 
上 下 文 与 重 采 样 的 buffer， 那 么 也 需要 销毁 掉 ) ; 然后 再 销毁 邱 视 频 的 
相关 资源 ， 包 括 分 配 的 AVFrame 与 视频 解码 器 (如 果 分 配 了 格式 转换 上 
下 文 与 转换 后 的 AVPicture， 那 么 也 需要 销毁 掉 ) ; 最 后 断 开 连 接 通 
道 ， 最 终 所 有 的 资源 都 销毁 掉 了 。 
超时 设置 

在 FFmpeg 的 API 中 ， 有 一 个 判断 超时 的 设置 ， 如 果 资 源 是 网 络 上 的 
媒体 文件 ， 那 么 该 设置 将 会 非常 有 用 ， 首 先 要 在 建立 连接 通道 之 前 为 
AVFormatContext 类 型 的 结构 体 的 interrupt_callback 变 量 赋值 即 设置 回调 
函数 ， 接 下 来 FFmpeg 将 在 以 后 需要 用 到 该 连接 通道 读 取 数据 的 时 候 








(寻找 流 信息 阶段 、 实 际 的 read_frame 阶 段 ) 由 另外 一 个 线程 调用 开发 

者 设置 的 这 个 回调 函数 ， 询 问 是 人 否 达到 超时 的 和 条件， 如果 返 回 1 则 代表 
超时 ，FFmpeg 会 主动 断 开 该 连接 通道 ， 返 回 0 则 代表 不 超时 ，FFmpeg 则 
不 进行 其 他 的 任何 处 理 。 所 以 如 果 网 络 情况 不 好 的 话 ， 在 我 们 关闭 资源 
的 时 候 就 有 可 能 会 出 现 阻 塞 很 长 时 间 的 情况 ， 所 以 开发 者 可 以 在 超时 回 
调 中 直接 人 返回 1， 并 且 可 以 很 快 关闭 掉 连 接 通 道 ， 然 后 释放 挥 整 个 资源 
J 


5.3 ”音频 播放 模块 的 实现 


本 节 就 来 介绍 音频 播放 模块 的 实现 ， 即 类 图 〈 图 5-2) 中 的 
AudioOutput 类 的 实现 ， 这 一 部 分 的 实现 对 于 Android 和 iOS 平 台 其 实 是 不 
同 的 ， 第 4 章 中 已 经 详细 介绍 了 OpenSL ES 和 AudioUnit 的 使 用 ， 这 里 面 
将 会 结合 现在 的 这 个 项 目 再 来 具体 地 调整 一 下 其 实现 结构 。 


5.3.1 Android 平 台 的 音频 泻 染 


Android 平 台 上 使 用 OpenSL ES 进行 音频 的 泻 染 ， 首 先 要 建立 
AudiooOutput 类 ， 按 照 之 前 的 架构 设计 ， 需 要 在 该 类 中 定义 一 个 回调 函 
数 ， 让 外 界 来 实现 该 函数 ， 用 来 为 此 模块 填充 所 需要 播放 的 音频 PCM 数 
据 ， 所 以 该 回调 函数 定义 如 下 : 





typedef int(*audioPlayerCallback)(byte* , size t, void* ctx); 


该 函数 的 第 一 个 参数 需要 外 和 界 填充 PCM 数 据 的 缓冲 区 ， 第 二 个 参数 
是 该 绥 冲 区 的 大 小 ， 第 三 个 参数 是 客户 端 代 码 上 自己 填充 的 上 下 文 对 象 
(由 于 C++ 中 的 回调 函数 是 静态 的 函数 ， 所 以 要 传递 对 象 日 身 作为 该 上 
下 文 对 象 ， 以 便 被 调用 的 时 候 可 以 将 该 上 下 文 对 象 强制 转换 成 为 目标 对 
象 ， 来 访问 对 象 中 的 属性 以 及 方法 ) 。 


接 下 来 ， 束 来 具体 实现 AudioOutput 类 中 的 几 个 接口 方法 ， 其 实 面 
同 对 象 的 特征 之 一 就 是 封装 ， 即 将 类 内 部 的 具体 实现 细节 进行 封装 ， 对 
外 提供 接口 ， 用 来 完成 客户 端 代码 想 要 该 类 完成 的 所 有 行为 。 所 以 这 几 
个 接口 肯定 不 需要 暴露 AudioOutput 内 部 到 底 是 使 用 OpenSL ES 来 实现 的 
音频 播放 还 是 AudioTrack 来 实现 的 播放 ， 我 们 现在 使 用 OpenSL ES 实现 
音频 播放 ， 如 果 以 后 还 有 一 些 特殊 的 需求 ， 那 么 可 以 换 成 AudioTrack 或 
者 其 他 的 实现 方式 ， 但 是 对 于 外 界 的 接口 以 及 回调 函数 是 不 会 改变 的 。 
这 对 于 整个 系统 的 扩展 性 以 及 维护 性 都 是 非常 重要 的 ， 其 实 前 面 
VideoDecoder 不 同 客 户 端 代码 暴露 AVFrame， 而 是 暴露 上 自己 封装 的 
VideoFrame 或 者 AudioFrame 结 构 体 ， 道 理 是 一 样 的 。 那 么 下 面 束 来 实现 
第 一 个 接口 。 


(1) 初始 化 方法 


传 入 的 参数 就 是 声 道 数 、 采 样 率 、 表 示 格 式 、 回 调 函 数 以 及 回调 函 
数 的 上 下 文 对 象 ， 返 回 值 就 是 OpenSL ES 是 否 可 以 正常 完成 初始 化 ， 对 
于 具体 的 OpenSL ES 是 如 何 初 始 化 的 此 处 将 不 再 袭 述 ， 因 为 第 4 章 中 已 
经 花费 了 很 大 的 解 幅 来 讲解 这 点 。 核 心 流程 中 有 一 步 是 为 
audioPlayerBufferQueue 设 置 回 调 函 数 ， 也 就 是 说 ， 当 OpenSL ES 需要 数 
据 进行 播放 的 时 候 会 回调 该 函数 ， 由 开发 者 来 填充 PCM 数 据 ， 而 此 时 我 
们 在 第 一 步 中 定义 的 回调 函数 就 有 用 了 ， 此 处 可 调用 该 回调 函数 来 填充 




















音频 裸 数据 ， 然 后 调用 audioPlayerBufferQueue 的 Enqueue 方 法 ， 把 客户 
端 代 码 填 充 过 来 的 PCM 数 据 放 到 OpenSL ES 的 BufferQueue 中 去 。 
(2) 暂停 和 继续 播放 方法 


上 面 的 步骤 在 初始 化 OpenSL ES 的 时 候 ， 已 经 获得 了 
audioPlayerObject 中 的 play 接 口 ， 这 里 只 需要 设置 playState 就 可 以 了 ， 代 
码 如 下 : 





int state = play ? SL_PLAYSTATE_PLAYING : SL_PLAYSTATE_PAUSED; 
(*audioPlayerPlay)->SetPlayState(audiopPlayerPlay, state); 





(3) 停止 方法 


首先 应 暂停 现在 的 播放 ， 然 后 最 重要 的 一 步 融 是 设置 一 个 全 局 的 状 
态 ， 以 保证 如 果 再 有 audioPlayerBufferQueue 的 回调 函数 需要 调用 的 时 
候 ， 不 需要 再 进行 数据 填充 ， 最 好 再 调用 usleep 方 法 来 暂停 一 段 时 间 
《比如 50ms) ， 以 使 得 buffer 绥 冲 区 里 面 的 数据 全 部 播放 完毕 ， 最 终 再 
调用 OpenSL ES 的 API 销 毁 所 有 的 资源 ， 包 括 audioPlayerObject 与 
outputMixObject。 











5.3.2 _ iOS 平台 的 首 频 演 染 


在 iOS 平 台 ， 可 使 用 AudioUnit (AUGraph 封 装 的 实际 上 就 是 
AudioUnit) 来 泻 染 音频 ， 类 似 于 Android 平 台 的 实现 ， 这 里 也 要 有 一 个 
类 似 于 回调 函数 的 形式 来 要 求 客 户 端 代 人 码 填 充 音 频 的 PCM 数 据 。 相 比较 
于 回调 函数 ，OC 中 的 常用 实现 是 定义 一 个 协议 (Protocol) ， 由 客户 端 
代码 实现 该 协议 ， 并 重 写 协 议 里 面 定义 的 方法 ， 下 面 就 来 看 看 这 个 
Protocol 的 定义 : 








@protocol FillDataDelegate <NSObject> 
- (NSInteger) fillAudioData:(SInt16*) sampleBuffer 
numFrames: (NSInteger)frameNum numChannels: (NSInteger)channels; 
@end 





其 中 ， 第 一 个 参数 就 是 要 填充 的 缓冲 区 ， 第 二 个 参数 是 该 缓冲 区 中 
有 多 少 个 音频 帧 ， 第 三 个 参数 是 声 道 数 。 客 户 端 代码 在 实现 中 要 按照 由 
的 个 数 和 声 道 数 来 填充 该 缓冲 区 。 其 实 OC 中 的 这 种 Protocol 方 式 会 更 加 
地 面向 对 象 ， 让 开发 者 能 够 更 加 合理 地 实现 代码 ， 用 客户 端 代码 来 实现 
这 个 协议 束 意 味 看 需要 承担 该 协议 所 要 求 的 职 贡 ， 比 起 C++ 的 回调 函数 
OC 语言 的 这 种 写法 会 更 加 地 面向 对 象 ， 读 者 可 以 自行 体会 一 下 。 


然后 是 该 类 的 初始 化 方法 ， 传 入 包括 声 道 数 (NSInteger 

channels) 、 采 样 率 (NSInteger sampleRate) 、 采 样 的 表示 格式 

(NSInteger ”bytesPerSample) ， 以 及 有 具体 的 所 规定 的 协议 实现 的 对 象 

Cid<FilleDelegate>fillAudioDelegate) 。 在 访 方 法 的 实现 中 首先 需要 构 
造 一 个 AVAudioSession， 然 后 为 该 Session 设置 用 途 类 型 以 及 采样 率 等 ; 
接 下 来 需要 设置 音频 被 中 断 的 监听 器 ， 以 方便 应 用 程序 在 特殊 情况 下 也 
可 以 给 出 相应 的 处 理 ， 最 后 就 是 核心 流程 构造 AUGraph， 用 来 实现 
音频 播放 ， 这 个 具体 的 流程 已 经 在 前 面 的 章节 中 详细 讲解 过 了 ， 这 里 需 
要 注意 的 是 ， 应 配置 一 个 ConvertNode 将 客户 端 代 人 码 填 充 的 SInt16 格 式 的 
音频 数据 转换 为 RemoteIONode 可 以 播放 的 Float32 格 式 的 音频 数据 〈 和 采 
样 率 、 声 道 数 以 及 表示 格式 应 对 应 上 ) ， 这 一 点 是 非常 关键 的 ， 当 然 需 
要 为 ConvertNode 配 置 上 InputCallback， 在 InputCallback 的 实现 中 调用 
Delegate 的 filAudioData 方 法 ， 让 客户 端 代码 填充 数据 ， 配 置 好 整个 
AudioGraph 之 后 ， 调 用 AUGraphInitialize 方 法 来 初始 化 整个 AUGraph。 
最 终 构 造 出 来 的 AUGraph 以 及 其 与 客 尸 端 代 码 的 调用 关系 如 图 5-4 所 
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图 5-4 


接 下 来 是 play 方 法 ， 该 方法 的 实现 就 非常 简单 了 ， 直 接 调 用 
AUGraphStart 方 法 ， 局 动 该 Graph 就 可 以 了 ， 一 旦 启动 了 之 后 ， 就 会 从 
RemoteIO 这 个 AudioUnit 开 始 播放 音频 数据 ， 如 果 需 要 音频 数据 ， 就 癌 
它 的 前 一 级 AudioUnit 即 ConvertNode 去 获取 数据 ， 而 ConvertNode 则 会 寻 
找 自己 的 InputCallback， 在 InputCallback 的 实现 中 其 将 从 delagate( 即 
VideoPlayerController〉 处 获取 数据 ， 然 后 就 问 实现 该 Protocol 的 客户 并 
代码 中 填充 数据 ， 最 终 就 可 以 播放 出 来 了 。 


至 于 pause 方 法 ， 其 实现 就 更 简单 了 ， 直 接 调 用 AUGraphStop 方 法 ， 
这 样 就 可 以 停止 AUGraph 的 运行 ， 声 音 自 然 束 不 会 播放 出 来 了 。 


最 后 是 销毁 方法 ， 在 销毁 方法 中 需要 停止 AUGraph， 然 后 调用 
AUGraphClose 方 法 关闭 AUGraph， 并 移 除 AUGraph 里 面 所 有 的 Node， 
最 终 调用 DisposeAUGraph， 这 样 就 可 以 彻底 销毁 掉 整 个 AUGraph 了 。 


5.4 画面 播放 模块 的 实现 


本 节 将 介绍 视频 (画面) 播放 模块 的 实现 ， 即 类 图 ( 见 图 5-2〉 中 
的 VideoOutput 类 的 实现 ， 这 部 分 的 实现 也 是 依赖 于 平台 的 ， 虽 然 原 理 
上 使 用 的 都 是 OpenGL ES， 但 是 对 于 不 同 的 平台 其 实现 也 是 不 同 的 ， 第 
ed 具体 的 使 用 实例 ， 下 面 就 结合 该 项 目 再 来 调整 





5.4.1 Android 平 台 的 视频 泻 染 


前 面 提 到 过 ， 无 论 是 在 哪 一 个 平台 上 使 用 OpenGL ES 泻 染 视频 的 画 
面 ， 都 需要 单独 开辟 一 个 线程 ， 并 且 为 该 线程 绑 定 一 个 OpenGL ES 的 上 
下 文 ，Android 平 台 肯 定 也 不 例外 ， 由 于 是 在 Native 层 进行 OpenGL ES 的 
开发 ， 所 以 这 里 首先 选用 线程 模型 ， 前 面 的 章节 中 ， 笔 者 曾经 分 析 过 各 
种 线程 模型 的 优 缺 点 ， 所 以 这 里 将 直接 选用 POSIX 线 程 模型 即 
PThread。 在 开始 实现 初始 化 函数 之 前 ， 需 要 先 定义 一 个 回调 函数 ， 当 
VideoOutput 模 块 需要 演 染 视频 帧 的 时 候 ， 就 调用 该 回调 函数 获取 需要 
泻 染 的 视频 帧 ， 然 后 再 进行 真正 的 泻 染 ， 回 调 函 数 的 代码 原型 如 下 : 





typedef int (*getTextureCallback)(VideoFrame** texture, void* ctx); 





该 函数 的 参数 列表 中 ， 第 一 个 束 是 要 获取 的 视频 帧 ， 第 二 个 是 回调 
函数 的 上 下 文 ， 返 回 值 为 int 类 型 (当成 功 获取 到 一 帧 视频 帧 之 后 返回 大 
于 零 的 值 ， 否 则 返回 负 值 ) 。 接 下 来 再 来 看 一 下 初始 化 函数 的 实现 。 


对 于 初始 化 函数 ， 传 入 的 第 一 个 参数 是 ANativeWindow 类 型 的 指 
针 ， 该 Window 实 际 上 是 从 Java 层 传递 过 来 的 一 个 Surface 中 构造 出 来 
的 ， 而 Java 层 的 这 个 Surface 就 是 从 SurfaceView 的 onSurfaceCreated 生 命 
周期 方法 中 的 SurfaceHolder 中 获取 出 来 的 。 第 二 个 和 第 三 个 参数 则 是 绘 
制 的 View 的 宽 和 高 ， 第 四 个 参数 是 获取 视频 帧 的 回调 函数 以 及 回调 函数 
的 上 下 文 对 象 。 初 始 化 函数 的 实现 如 下 ， 首 先 创 建 一 个 线程 作为 
OpenGL ES 的 泻 染 线程 ， 线 程 执 行 的 第 一 个 步 又 就 是 初始 化 OpenGL ES 
环境 ， 它 会 利用 EGL 构 建 出 OpenGL ES 的 上 上 下文， 并且 利 用 
ANativeWindow 构 造 出 EGLDisplay 作 为 显示 目标 ， 然 后 利用 vertexShader 
和 fragmentShader 构 造 出 一 个 Program 。 


VertexShader 负 责 顶 点 的 操作 ， 其 代码 如 下 : 





static char* OUTPUT_VIEW_VERTEX_SHADER = 


"attribute vec4 vPosition; \n" 
"attribute vec4 vTexCords; \n" 
"varying vec2 yuvTexCoords,; \n" 
mh \n" 
"void main() { \n" 

yuvTexCoords = vTexCords .xy; \n" 


gl_Position = vPosition,; \n" 
\n"，; 








VertexShader 中 直接 将 顶点 赋值 给 g]_Position， 然 后 将 纹理 坐标 传递 
给 FragmentShader， 代 码 具 体 如 下 : 





static char* YUV_FRAME_FRAGMENT_SHADER = 
"varying highp vec2 yuvTexCoords; 
"uniform sampler2D s_texture_y; 
"uniform sampler2D s_texture_u; 
"uniform sampler2D s_texture_v; 
"void main(void) 


{ \n" 
highp float y texture2D(s_texture y, yuvTexCoords).r; 

highp float u texture2D(s_texture _u, yuvTexCoords).r - 0.5; 

highp float v texture2D(s_texture v, yuvTexCoords).r - 0.5; 


highp float r =y + 1.402 * v; 
highp float g =y - 0.344 * UU- 0.714 * V' 
highp float b =y + 1.772 * u; 


gl1_FragColor = vec4(r,g,b,1.0); 





由 于 视频 帧 是 由 YUV420P 的 数据 格式 表示 的 ， 所 以 在 
FragmentShader 中 需要 把 YUV 格 式 的 数据 转换 为 RGBA 格 式 的 数据 。 首 
先 获取 对 应 的 YUV 格 式 的 数据 ， 因 为 UV 的 默认 值 是 127， 所 以 我 们 这 里 
要 减 去 0.5 (OpenGL ES 的 Shader 中 会 把 内 存 中 0 一 255 的 整数 数值 换算 为 
0.0 一 1.0 的 浮 点 数值 ) ， 然 后 按照 YUV 到 RGBA 的 计算 公式 将 YUV 的 格 
式 转 换 为 RGBA 的 格式 ， 而 这 就 是 FragmentShader 要 完成 事情 。 


然后 是 泻 染 方法 ， 当 客户 并 代码 需要 VideoOutput 来 演 染 视频 帧 的 
时 候 ，VideoOutput 模 块 将 会 利用 回调 函数 先 获 得 视频 帧 ， 然 后 利用 第 
一 步 创 建 的 线程 中 构造 的 Program 执 行 泻 染 操作 ， 最 终 调用 
eglSwapBuffers 方 法 将 泻 染 的 内 容 绘 制 到 EGLSurface 中 去 (EGLSurface 
内 部 是 ANativeWindow，ANativeWindow 内 部 义 组 合 了 Surface， 而 
Surface 代 表 的 就 是 SurfaceView， 所 以 最 终 就 是 绘制 到 Java 层 的 
SurfaceView 中 去 ) 。 


最 后 是 销毁 方法 ， 也 必须 在 第 一 步 创 建 的 线程 中 进行 ， 因 为 在 该 线 
程 中 创建 了 OpenGL 上 下 文 、EGLDisplay、Program、 演 染 过 程 中 使 用 到 
的 纹理 对 象 、FrameBuffer 对 象 等 OpenGL ES 的 对 象 ， 所 以 必须 在 该 线程 
中 销毁 这 一 系列 的 对 象 。 


5.4.2 iOS 平台 的 视频 演 染 


前 面 章 市 中 曾 介绍 过 如 何在 iOS 平 台 上 使 用 OpenGL ES， 在 本 节 的 
实现 中 ， 首 先 会 书写 一 个 VideoOutput 类 继承 自 UIView， 然 后 重 写 父 类 
的 layerClass 方 法 ， 并 且 返 回 CAEAGLLayer 类 型 ， 重 写 该 方法 的 目的 是 





该 UIView 可 以 被 OpenGL ES 进行 泻 染 ; 然后 在 初始 化 方法 中 ， 将 
OpenGL ES 绑 定 到 Layer 上 ，iOS 平 台 上 的 线程 模型 ， 采 用 


NSOperationQueue 来 实现 ， 也 就 是 把 OpenGL “ES 的 所 有 操作 都 封装 在 
NSOperationQueue 中 来 完成 ， 为 什么 要 使 用 这 种 线程 模型 呢 ? 其 实 笔 者 
在 很 多 设备 中 都 做 过 测试 ， 由 于 某 些 低 端 设备 ， 比 如 iPod、iPhone 4， 
在 一 次 OpenGL 的 绘制 中 耗费 的 时 间 可 能 会 比较 多 ， 如 果 使 用 的 是 GCD 
的 线程 模型 ， 那 么 会 导致 DispatchQueue 里 面 的 绘制 操作 越 积 累 越 多 ， 并 
且 不 能 清空 ， 而 使 用 NSOperationQueue， 则 可 以 在 检测 到 Queue 里 面 的 
Operation 超 过 定义 的 靖 值 〈Threshold) 时 ， 清 空 最 久 的 Operation， 只 保 
留 最 新 的 绘制 操作 ， 这 样 才能 完成 正常 的 播放 。 前 面 的 章节 中 也 曾 提 到 
过 ，iOS 平 台 有 一 个 比较 特殊 的 地 方 就 是 如 果 App 进 入 后 台 之 后 ， 束 不 
能 再 进行 OpenGL ES 的 泻 染 操作 ， 所 以 这 里 还 需要 注册 两 个 监听 事件 : 
一 个 是 WillResignActiveNotification， 即 当 App 从 活跃 状态 变 为 非 活 跃 状 
态 的 时 候 ， 或 者 即将 进入 后 台 的 时 候 ， 系 统 会 调用 该 监听 事件 ， 另 外 一 
个 是 DidBecomeActiveNotification， 即 当 App 从 后 台 到 前 台 时 系统 会 调用 
该 监听 事件 。 我 们 可 以 在 这 两 个 回调 方法 中 控制 一 个 布尔 型 变量 : 
enableOpenGLRendererFlag， 并 在 进入 后 台 的 监听 事件 中 将 它 设置 为 
NO， 在 回 到 前 人 台 的 监听 事件 中 将 它 设 置 为 YES。 在 线程 的 绘制 过 程 中 
应 该 先 判定 这 个 变量 是 否 为 YES， 是 YES 则 进行 绘制 ， 否 则 不 进行 绘 
制 ， 其 整体 实现 结构 如 上 上 所 述 。 


接 下 来 看 一 下 初始 化 方法 的 实现 ， 首 先 为 ljayer 设 置 属性 ， 然 后 初始 
化 NSOperation-Queue， 并 且 将 OpenGL ES 的 上 下 文 构 建 以 及 OpenGL ES 
的 泻 染 Program 的 构建 作为 一 个 Block( 可 以 理解 为 一 个 代码 块 ) 直接 加 
入 到 该 Queue 中 。 该 Block 中 的 具体 行为 如 下 : 先 分 配 一 个 
EAGLContext， 然 后 为 该 NSOperationQueue 线 程 绑 定 OpenGL ”ES 上 下 
文 ， 接 着 再 创建 FrameBuffer 和 RenderBuffer， 将 RenderBuffer 的 storage 设 
置 为 UIView 的 layer《〈 就 是 前 面 提 到 的 CAEAGLLayer) ， 然 后 再 将 
FrameBuffer 和 RenderBuffer 绑 定 起 来 ， 这 样 绘制 在 FrameBuffer 上 的 内 容 
就 相当 于 绘制 到 了 RenderBuffer 上 ， 最 后 使 用 前 面 提 到 的 VertexShader 和 和 
FragmentShader 构 造 出 实际 的 泻 染 Program， 至 此 ， 初 始 化 就 完成 了 。 


然后 是 关键 的 泻 染 方法 ， 这 里 先 判断 当前 OperationQueue 中 
operationCount 的 值 ， 如 果 其 数目 大 于 我 们 规定 的 浆 值 〈 一 般 设 置 为 2 或 
者 3) ， 则 说 明 每 一 次 绘制 所 花费 的 时 间 都 比较 多 ， 这 将 导致 很 多 绘制 
的 延迟 ， 所 以 可 以 删除 抒 最 和 久 的 绘制 操作 ， 仅 仅 保 留 等 于 阔 值 个 数 的 绘 
制 操作 ， 然 后 将 本 次 绘制 操作 加 入 到 OperationQueue 中 ， 该 绘制 操作 的 
执行 已 经 委托 到 OperationQueue 的 线程 中 了 。 由 于 在 初始 化 的 过 程 中 我 
们 已 经 为 该 线程 绑 定 了 OpenGL ES 的 上 下 文 ， 所 以 可 以 在 该 线程 中 直接 
进行 OpenGL ES 的 这 染 操作 。 首 先 判定 布尔 型 变量 
enableOpenGLRendererFlag 的 值 ， 如 果 是 YES， 束 绑 定 FrameBuffer， 然 
后 使 用 Program 进 行 绘制 ， 最 后 绑 定 RenderBuffer 并 且 调 用 EAGLContext 
的 PresentRenderBuffer 将 刚刚 绘制 的 内 容 显 示 到 layer 上 去 ， 因 为 layer 束 
是 UIView 的 layer， 所 以 能 够 在 UIView 中 看 到 我 们 刚刚 绘制 的 内 容 了 。 


至 于 销毁 方法 ， 也 要 保证 这 步 操作 是 放 在 OperationQueue 中 执行 
的 ， 因 为 涉及 OpenGL ES 的 所 有 操作 都 要 放 到 绑 定 了 上 下 文 环 境 的 线程 
中 去 操作 。 具 体 实现 中 ， 前 先 要 释放 挥 Program， 然 后 释放 挥 
FrameBuffer 和 RenderBuffer， 最 后 将 本 线程 与 OpenGL 上 下 文 解除 绑 定 。 


对 于 UIView 的 dealloc 方 法 ， 其 功能 主要 是 负责 回收 所 有 的 资源 ， 首 
先 移 除 所 有 的 监听 事件 ， 然 后 清空 OperationQueue 中 未 执行 的 操作 ， 最 
后 释放 掉 所 有 的 资源 。 至 此 该 VideoOutput 就 实现 完毕 了 。 








5.5 AVSync 模 块 的 实现 


本 节 将 介绍 音 视 频 同 步 模块 的 实现 ， 即 类 图 中 AVSynchronizer 类 的 
实现 ， 对 于 该 类 的 职责 ， 从 它 的 名 字 上 就 可 以 看 出 来 ， 主 要 是 用 于 实现 
音 视 频 同步 的 ， 我 们 在 架构 设计 阶段 就 曾 说 过 ， 不 想 把 该 系统 拆 得 太 
细 ， 所 以 该 类 的 职责 还 包括 维护 解码 线程 ， 即 创建 、 暂 停 、 运 行 、 销 左 
解码 线程 ， 基 于 以 上 分 析 ， 该 类 可 分 为 两 部 分 来 实现 : 第 一 部 分 是 维护 
解码 线程 ， 第 二 部 分 就 是 音 视频 同步 。 其 主要 接口 与 实现 具体 如 下 。 


当 外 界 调 用 该 模块 的 初始 化 方法 的 时 候 ， 根 据 要 打开 的 媒体 资源 
0 
续 使 用 。 


` 当 外 界 需 要 使 用 该 类 填充 首 频 数据 的 时 候 ， 如 果 首 频 队列 中 已 存 
在 音频 则 直接 填充 即 可 ， 同 时 要 记录 下 该 音频 帧 的 时 间 戳 ， 如 宋 音 频 队 
列 中 没有 音频 则 填充 空 数据 。 


当 外 界 需要 该 类 返回 视频 帧 的 时 候 ， 会 根据 当前 播放 的 音频 帧 时 
间 惟 找到 合适 的 视频 帧 并 返回 。 


当 外 界 调 用 销毁 方法 的 时 候 ， 首 移 会 停止 解码 线程 ， 然 后 销毁 解 
码 器 ， 最 后 再 销毁 音 视 频 队 列 。 


























5.5.1 ”维护 解码 线程 


AVSync 模 块 开辟 的 解码 线程 扮演 了 生产 者 的 角色 ， 其 生产 出 来 的 
数据 所 存放 的 位 置 就 是 音频 队列 和 视频 队列 ， 而 AVSync 模 块 对 外 提供 
的 填充 音频 数据 和 获取 视频 的 方法 则 扮演 了 消费 者 的 角色 ， 从 音 视频 队 
列 中 获取 数据 ， 其 实 这 就 是 标准 的 生产 者 消费 者 模型 。 当 客户 端 代 人 码 调 
用 start 方 法 的 时 候 ， 就 应 该 利用 POSIX 线 程 模型 来 创建 一 个 解码 线程 ， 
并 且 让 该 解码 线程 开始 运行 ， 从 而 解码 音频 帧 和 视频 帧 ， 解 码 出 来 的 音 
视频 帧 要 转换 为 我 们 目 定 义 的 结构 体 AudioFrame 和 VideoFrame， 并 且 要 
把 这 两 种 类 型 的 帧 分 别 放 入 音频 队列 和 视频 队列 中 。 那 么 在 解码 线程 中 
具体 应 该 如 何 调 用 VideoDecoder 〈 输 入 模块 ) 来 进行 解码 的 操作 呢 ? 其 
实现 代码 具体 如 下 : 














while(IsonDecoding ) 
pthread mutex_lock(&videoDecoderLock); 
pthread_cond wait(&videoDecoderCondition, &videoDecoderLock); 
pthread mutex_unlock(&videoDecoderLock); 
isDecodingFrames = true; 
decodeFrames( ); 
isDecodingFrames = false; 


} 





上 述 代 码 在 该 线程 中 会 是 一 个 循环 ， 只 要 不 销毁 该 模块 《〈 销 毁 的 时 
候 会 把 全 局 变量 isOnDecoding 设 置 为 false) ， 束 会 一 直 运 行 该 循环 。 在 
该 循环 内 部 首先 会 看 到 有 一 个 条 件 锁 ， 即 每 循环 一 次 之 后 就 会 停 在 wait 
的 地 方 ， 等 待 signal 指 令 发 送 过 来 才 可 以 进行 下 一 次 解码 操作 ， 为 什么 
要 这 样 安 排 呢 ?因为 播放 器 播放 的 视频 是 随时 间 逐 一 进行 播放 的 ， 而 后 
台 解 码 线程 没 必要 将 视频 一 次 性 全 部 解码 完毕 并 放 入 队列 中 《一 个 原因 
是 其 在 内 存 中 基本 上 存储 不 开 ， 因 为 视频 所 占用 的 空间 实在 是 太 大 了 ; 
第 二 个 原因 是 用 户 可 能 看 一 会 儿 束 不 看 了 ， 也 就 是 说 我 们 解码 出 来 首 视 
频 帧 就 都 作废 了 ， 没 必要 白白 浪费 CPU， 如 果 是 网 络 资源 则 还 浪费 了 带 
宽 ) ， 所 以 需要 将 解码 线程 设置 成 这 种 模式 。 这 里 规定 两 个 值 : 
min_bufferDuration 和 max_bufferDuration， 比 如 将 它们 分 别 设置 0.2s 和 
0.4s， 前 面 已 经 提 到 过 解码 线程 其 实 是 充当 了 生产 者 的 角色 ， 每 调用 一 
次 decodeFrames 方 法 时 都 会 将 两 个 队列 填充 至 max_bufferDration 的 刻度 
之 上 ， 然 后 解码 线程 就 会 进入 下 一 次 循环 ， 就 在 上 面 代 码 中 的 wait 处 等 
竺 signal 指 令 。 而 当 消 费 者 线程 每 消费 一 次 数据 的 时 候 ， 我 们 都 会 判断 
队列 中 所 有 视频 帧 的 长 度 是 否 在 min_bufferDuration 刻 度 之 下 ， 如 果 是 在 





























该 刻度 之 下 ， 就 发 送 signal 指 令 让 解码 线程 进行 解码 。 实 现代 人 码 具 体 如 
下 : 





bool isBufferedDurationDecreasedToMin = bufferedDuration <= minBufferedDurat 
if (isBufferedDurationDecreasedToMin && !isDecodingFrames) { 
int getLockCode = pthread mutex_lock(&videoDecoderLock); 
pthread_cond_signal(&videoDecoderCondition); 
pthread mutex_unlock(&videoDecoderLock); 


} 





当 解 码 线 程 收 到 signal 指 令 之 后 ， 避 ® 可 以 进行 下 一 次 解码 了 ， 如 此 
一 来 ， 伴 随 着 生产 者 线程 和 消费 者 线程 的 协同 工作 ， 整 个 视频 播放 器 就 
可 以 播放 出 视频 来 了 。 


还 有 一 点 需要 注意 的 是 ， 在 最 后 销毁 该 模块 的 时 候 ， 需 要 先 将 
isOnDecoding 变 量 设置 为 false， 然 后 还 需要 额外 发 送 一 次 Signal 指 令 ， 让 
解码 线程 有 机 会 结束 ， 如 果 不 发 送 访 signal 指 令 ， 那 么 解码 线程 就 有 可 
能 一 直 wait 在 这 里 ， 成 为 一 个 僵尸 线程 。 








5.5.2” 音 视频 同步 


音 视 频 同步 的 集 略 在 前 文中 也 曾 提 到 过 ， 这 里 再 重点 介绍 一 下 ， 音 
视频 同步 一 般 分 为 三 种 : 音频 回 视频 同步 、 视 频 问 音频 同步 、 首 频 视 频 
统一 回 外 部 时 钟 同步 。 在 第 3 章 学 习 FFmpeg 框 架 时 ， 也 学 习 过 ffplay， 

其 中 使 用 ffplay 播 放 视 频 文件 的 时 候 ， 所 指定 的 对 齐 方 式 束 是 上 面 所 说 
的 三 种 方式 ， 下 面 就 来 逐一 分 析 这 三 种 对 齐 方式 分 别 是 如 何 实 现 的 ， 以 
及 各 上 自 的 优 缺 点 。 


(1) 音频 问 视 频 同步 


先 来 看 一 下 这 种 同步 方式 是 如 何 实现 的 ， 音 频 问 视频 同步 ， 顾 名 思 
义 ， 就 是 视频 会 维持 一 定 的 刷新 频率 ， 或 者 根据 泻 染 视频 帧 的 时 长 来 决 
定 当 前 视频 帧 的 泻 染 时 长 ， 或 者 说 视频 的 每 一 帧 肯定 可 以 全 都 泻 染 出 
来 ， 当 我 们 同 AudioOutput 模 块 填充 首 频 数据 的 时 候 ， 会 与 当前 泻 染 的 
视频 帧 的 时 间 惟 进行 比较 ， 这 个 又 值 如 果 不 在 病 值 的 范围 内 ， 束 需要 做 
对 齐 操作 ， 如 宁 其 在 国 值 范围 内 ， 那 么 就 可 以 直接 将 本 帧 音频 帧 填充 到 
AudioOutput 模 块 ， 进 而 让 用 户 听 到 该 声音 。 那 如 果 不 在 国 值 范围 内 ， 
又 该 如 何 进行 对 齐 操 作 呢 ? 这 殉 需 要 我 们 去 调整 音频 帧 了 ， 也 就 是 说 如 
末 要 填充 的 音频 帧 的 时 间 戳 比 当前 演 染 的 视频 帧 的 时 间 戳 小 ， 那 就 需要 
进行 跳 帧 操作 (具体 的 跳 帧 操作 可 以 是 加 快速 有 度 播 放 的 实现 ， 也 可 以 是 
丢弃 一 部 分 首 频 帧 的 实现 ) ; 如 果 首 频 帧 的 时 间 惟 比 当前 泻 染 的 视频 帧 
的 时 间 稚 大 ， 那 么 残 需 要 等 每 ， 上 基体 实现 可 以 是 癌 AudioOutput 模 块 填 
充 空 数据 并 进行 播放 ， 也 可 以 是 将 音频 的 速度 放 慢 播放 给 用 户 听 ， 而 此 
时 视频 帧 是 继续 一 帧 一 帧 进行 演 染 的 ， 一 旦 视频 的 时 间 礁 赶 上 了 首 频 的 
时 间 惟 ， 惑 可 以 将 本 帧 首 频 帧 的 数据 填充 到 AudioOutput 模 块 了 。 这 束 
是 首 频 回 视 频 同 步 的 实现 ， 其 优点 束 是 视频 可 以 将 每 一 帧 都 播放 给 用 户 
看 ， 国 面 看 上 去 是 最 流畅 的 ， 但 是 音频 就 会 有 所 丢 帧 或 者 会 插入 静音 
帧 ， 所 以 这 种 对 章 方式 会 有 一 个 明显 的 缺点 ， 那 就 是 音频 有 可 能 会 加 速 
〈 或 者 跳 变 ) 也 有 可 能 会 有 静音 数据 《或 者 慢 速 播 放 ) ， 如 果 变 速 系数 
不 太 大 ， 那 么 用 户 感知 可 能 不 太 强 (但 是 如 果 系 数 变 化 比较 大 那么 用 户 
感知 就 会 非常 强烈 了 ) ,发生 丢 帧 或 者 插入 空 数据 的 时 候 ， 用 户 的 耳 条 
是 可 以 明显 感觉 到 的 。 


(2) 视频 同音 频 同步 



























































再 来 看 一 下 视频 回音 频 同步 的 方式 是 如 何 实现 的 ， 这 与 上 面 提 到 的 
方式 恰好 相反 ， 由 于 不 论 是 哪 一 个 平台 播放 首 频 的 引擎 ， 都 可 以 保证 播 
放 音 频 的 时 间 长 度 与 实际 这 段 音 频 所 代表 的 时 间 长 度 是 一 致 的 ， 所 以 我 
们 可 以 依赖 于 音频 的 顺序 播放 为 我 们 提供 的 时 间 戳 ， 当 客户 端 代码 请 求 
发 送 视频 帧 的 时 候 ， 会 先 计算 出 当前 视频 队列 头 部 的 视频 帧 元 素 的 时 间 
共 与 当前 音频 播放 帧 的 时 间 戳 的 普 值 。 如 果 在 冰 值 范围 内 ， 惑 可 以 泻 染 
这 一 帧 视频 帧 ， 如 果 不 在 装 值 范围 内 ， 则 要 进行 对 齐 操 作 。 有 共 体 的 对 齐 
操作 方法 就 是 : 如 条 当前 队列 头 部 的 视频 帧 的 时 间 戳 小 于 当前 播放 音频 
帧 的 时 间 惟 ， 那 么 就 进行 跳 帧 操作 ;如果 大 于 当前 播放 普 频 帧 的 时 间 
鹤 ， 那 么 就 进行 等 每 (重复 渔 染 上 一 帧 或 者 不 进行 泻 染 ) 的 操作 。 其 优 
点 是 音频 可 以 连续 地 播放 ， 缺 点 是 视频 画面 有 可 能 会 有 跳 帧 的 操作 ， 但 
是 对 于 视频 画面 的 丢 帧 和 跳 帧 ， 用 户 的 眼睛 是 不 太 容 易 分辩 得 出 来 的 。 


(3) 统一 同 外 部 时 钟 同步 


这 种 策略 其 实 更 像 是 上 述 两 种 对 齐 方式 的 合体 ， 其 实现 就 是 在 外 部 
单独 维护 一 轨 外 部 时 钟 ， 我 们 要 保证 该 外 部 时 钟 的 更 新 是 按照 时 间 的 增 
加 而 慢 慢 增加 的 ， 当 我 们 获取 音频 数据 和 视频 帧 的 时 候 ， 者 需要 与 这 个 
外 部 时 钟 进行 对 齐 ， 如 果 没 有 超过 国 值 ， 那 么 就 直接 返回 本 帧 音频 帧 或 
者 视频 帧 ， 如 果 超 过 了 阐 值 就 要 进行 对 齐 操作 。 具 体 的 对 齐 操作 是 : 使 
用 上 述 两 种 方式 里 面 的 对 齐 操作 ， 将 其 分 别 应 用 于 音频 的 对 齐 和 视频 的 
对 齐 。 优 点 是 可 以 最 大 限度 地 保证 首 视 频 都 可 以 不 友 生 跳 帧 的 行为 ， 缺 
扩 是 如 果 控 制 不 好 外 部 时 钟 ， 极 有 可 能 引发 首 频 和 视频 部 跳 帧 的 行为 。 


根据 人 眼睛 和 和 耳 条 的 生理 构造 因 系 ， 得 出 了 一 个 理论 ， 那 束 是 人 的 
耳 林 比 人 的 眼睛 要 敏感 得 多 ， 也 束 是 说 ， 如 果 首 频 有 跳 帧 的 行为 或 者 填 
空 数据 的 行为 ， 那 么 我 们 的 耳 和 朱 是 十 分 容易 察觉 得 到 的 ;而 视频 如 果 有 
跳 巾 或 者 重复 演 染 的 行为 ， 我 们 的 眼睛 其 实 不 容易 分 辨 出 来 。 根 据 这 个 
理论 ， 我 们 押 实 现 的 播放 器 将 采用 音 视 频 对 齐 策略 的 第 二 种 方式 ， 即 视 
频 问 音频 对 齐 的 方式 。 






































5.6 ”中 控 系 统 串联 起 各 个 模块 


下 面 介 绍 中 控 模 块 的 实现 ， 即 类 图 中 VideoPlayerController 类 的 实 
现 ， 这 一 部 分 其 实 是 将 上 面 提 到 的 各 个 模块 有 序 地 组 织 起 来 ， 让 单独 运 
行 的 各 个 模块 可 以 协同 起 来 配合 工作 。 由 于 每 个 模块 都 有 各 自 的 线程 在 
运行 ， 所 以 对 于 这 部 分 代码 ， 必 须要 负责 好 各 个 模块 的 生命 周期 的 维 
护 ， 否 则 极 易 产生 多 线程 的 问题 ， 下 面 就 分 为 三 个 阶段 来 讲解 该 模块 ， 
分 别 是 初始 化 、 运 行 和 销毁 三 个 阶段 。 


5.6.1 初始 化 阶段 


1.Android 平 台 


虽然 我 们 的 项 目 称 为 视频 播放 器 ， 但 即使 客户 端 代码 没有 提供 泻 染 
的 View， 播 放 器 也 应 该 能 够 播放 出 声音 来 ， 而 这 古 一 个 比较 有 用 的 功能 
(在 一 些 产 品 中 可 以 为 用 户 提供 非 第 好 的 体验 ， 比 如 ; 在 直播 产品 中 秘 
开 首 屏 、 在 一 些 视频 播放 器 中 正在 播放 的 时 候 退 出 播放 界面 但 还 是 有 声 
音 在 播放 、 在 切换 回来 时 画面 可 以 立即 演 染 类 似 于 YouTube 的 播放 界面 
的 体验 ) ， 所 以 在 初始 化 阶段 必须 将 播放 器 的 初始 化 与 演 染 界面 的 初始 
化 分 离开 来 。 如 上 述 分 析 ， 初 始 化 阶段 应 该 分 为 两 部 分 : 一 部 分 是 播放 
名 的 初始 化 ， 男 外 一 部 分 古 泻 染 界面 的 初始 化 。 


首先 来 看 播放 器 的 初始 化 ， 因 为 在 初始 化 的 过 程 中 需要 IO 操作 ， 
因此 需要 调用 AVSync 模 块 打开 媒体 资源 ， 如 果 媒 体 资源 是 本 地 资源 则 
还 好 ; 如 果 是 网 络 资源 ， 则 建立 连接 的 时 间 束 不 确定 了 【因为 建立 连接 
操作 是 阻 窜 的， 直到 建立 连接 成 功 之 后 才 会 返回 ) ， 所 以 这 里 必须 要 开 
辟 一 个 线程 来 进行 初始 化 的 操作 ， 即 利用 PThread 开 尽 一 个 initThread 出 
来 。 在 这 个 线程 中 ， 先 实例 化 AVSynchronizer 对 象 ， 然 后 调用 该 对 象 的 
init 方 法 来 建立 与 媒体 资源 的 连接 通道 。 如 果 打 开 连 接 失 败 ， 那 么 回调 
客户 端 会 提示 打开 资源 失败 ;如 果 打 开 连 接 成 功 ， 则 根据 媒体 资源 的 
Channel、SampleRate、SampleFormat 以 及 fillAudioDataCallback 回 调 函 数 
和 对 象 本 吴 来 初始 化 AudioOutput。 如 果 可 以 初始 化 成 功 ， 则 代表 初始 
化 步骤 可 以 完成 了 ， 然 后 直接 调用 AVSync 模 块 的 start 方 法 以 及 
AudioOutput 的 播放 方法 。 还 有 最 后 一 步 ， 由 于 上 述 操作 都 是 在 新 开启 
的 线程 里 面 执行 的 ， 所 以 无 法 将 初始 化 成 功 或 者 失败 以 及 一 系列 的 参数 
返回 给 客户 疾 ， 故 而 最 后 一 步 就 是 将 初始 化 成 功 与 否 回调 给 客户 端 对 
象 ， 告 诉 客户 问 初 始 化 播放 器 的 状态 ， 人 至 此 播放 器 就 可 以 正常 地 播放 首 
频 了 ， 但 是 视频 呢 ? 


接 下 来 是 演 染 界面 初始 化 的 阶段 ， 如 果 客 户 端 调用 层 觉 得 现在 这 个 
时 机 可 以 显示 视频 的 画面 部 分 了 ， 那 么 就 会 让 SurfaceView 进 行 显示 操 
作 ， 按 照 SurfaceView 的 生命 周期 ， 应 该 会 调用 设置 Callback 的 
onSurfaceCreated 方 法 ， 也 就 是 调用 中 控 系 统 的 initVideoOutput 方 法 ， 这 
就 是 用 来 初始 化 泻 染 界面 的 ， 这 里 会 直接 初始 化 VideoOutput 对 象 ， 然 
后 用 传递 进来 的 ANativeWindow 对 象 与 界面 的 宽 和 高 以 及 获取 视频 帧 的 


























回调 函数 来 初始 化 VideoOutput 对 象 。 以 上 就 是 初始 化 阶段 所 有 的 执行 








2.iO0S 平 台 
与 Android 平 台 不 同 的 是 ，iOS 的 播放 喜 在 一 个 ViewController 中 ， 上 所 
以 整个 播放 器 的 中 控 系 统 就 是 ViewController， 从 而 播放 器 在 iDOS 平 台 上 


的 实现 要 简单 一 些 ， 毕 竟 不 需要 两 种 语言 的 交互 〈Java 层 到 Native 层 的 
数据 和 指令 传递 ) ， 所 以 这 里 的 初始 化 就 是 整个 播放 器 的 初始 化 。 还 记 
得 在 AVSync 模 块 中 定义 的 PlayerStateCallback 的 Protocol 吗 ? 其 中 包含 如 
下 两 个 方法 : 





- (void) openSucceed; 
- (void) connectFailed ; 


上 述 代码 中 的 两 个 方法 分 别 是 在 初始 化 方法 执行 成 功 或 失败 时 ， 回 
调 客户 端 代码 时 使 用 的 。 与 Android 平 台 类 似 ， 调 用 AVSync 模 块 放 在 一 
个 异步 线程 中 来 打开 连接 会 更 加 合理 ， 所 以 这 里 使 用 GCD 线 程 模 型 ， 将 
初始 化 的 操作 放 在 一 个 DispatchQueue 中 。 首 先 也 是 调用 AVSync 模 块 的 
openFile 方 法 ， 如 果 可 以 打开 媒体 资源 连接 ， 则 继续 初始 化 VideoOutpnut 
对 象 。 还 记得 VideoOutput 实 际 上 是 一 个 继承 自 UIView 的 自 定 义 View 
吗 ? 我 们 需要 把 该 View 加 入 到 ViewController 中 ， 但 是 当前 是 在 一 个 子 
线程 中 初始 化 的 ViewOutput 的 对 象 ， 所 以 我 们 必须 dispatch 到 主线 程 
中 ， 然 后 调用 如 下 代码 : 





[self.view insertSubview:_videoOutput atIndex 0]; 








接着 还 是 在 子 线程 中 根据 媒体 文件 中 的 声 道 数 、 采 样 紊 以 及 对 象 本 
身 ( 作 为 实现 AudioOutput 类 中 声明 的 Protocol 的 实现 者 ) 来 初始 化 
AudioOutput 对 象 ， 最 终 调用 AudioOutput 的 开始 播放 方法 。 由 于 上 述 操 
作 一 直 是 在 子 线程 中 执行 的 操作 ， 所 以 当 执 行 完 毕 之 后 ， 可 以 使 用 前 面 
提 到 的 playerStateCallback 来 回调 客户 端 代码 ， 并 告知 客户 端 播放 器 初始 
化 的 状态 ， 是 成 功 还 是 失败 。 


5.6.2 ”运行 阶段 
1.Android 平 台 


由 于 在 初始 化 阶段 已 经 开启 了 首 频 输出 模块 (调用 了 AudioOutput 
对 象 的 start 方 法 ) ， 因 此 ， 在 OpenSL ES 中 将 自己 绥 冲 区 里 面 的 音频 播 
放 完 毕 之 后 ， 就 会 通过 回调 方法 立马 回调 到 中 控 模 块 ， 由 中 控 模 块 来 填 
充 数据 ， 而 填充 音频 的 方法 就 是 最 核心 的 实现 。 有 具体 实现 如 下 ， 首 先 会 
判断 当前 播放 器 的 状态 ， 如 果 人 处 于 暂停 状态 就 不 会 再 同 AVSync 模 块 请 
求 数据 ， 而 是 将 静音 数据 《〈 即 全 0 的 数据 ) 填充 到 OpenSL ES 并 播放 ; 
当然 如 果 AVSync 已 经 被 销毁 了 或 者 解码 完毕 了 ， 那 么 也 要 将 空 数据 填 
充 到 OpenSL ES 并 播放 ;， 如 果 上 述 情况 都 不 满足 的 话 ， 束 需要 调用 
AVSync 模 块 填充 音频 数据 的 方法 ， 待 填充 了 这 一 帧 的 音频 数据 之 后 ， 
束 同 VideoOutput〔( 视 频 输出 模块 ) 发送 一 个 指令 ， 让 VideoOutput 模 块 
来 更 新 视频 画面 的 一 帧 ， 当 VideoOutput 模 块 收 到 该 指令 时 ， 就 可 以 再 
调用 目 己 的 回调 方法 《〈 由 于 在 初始 化 的 时 候 已 经 把 中 控 系 统 的 回调 方法 
传递 给 了 VideoOutput) ， 从 而 调用 到 VideoPlayerController 的 获取 视频 
帧 的 方法 ， 调 用 AVSync 模 块 的 获取 视频 帧 的 方法 之 后 ， 返 回 给 视频 播 
放 模 块 ， 并 将 最 新 的 一 帧 视频 帧 更 新 到 画面 中 。 


在 运行 阶段 还 有 和 暂停 和 继续 播放 的 接口 实现 ， 在 Android 平 台 上 ， 
由 于 整个 播放 器 的 驱动 是 由 音频 播放 模块 来 驱动 的 ， 所 以 仅 需 要 让 音频 
播放 模块 暂停 和 继续 就 好 了 ， 所 以 这 一 块 的 实现 是 非常 简单 的 。 








2.iOS 平 台 


由 于 iOS 的 中 控 系 统 实 现 了 AudioOutput 模 块 的 FilDataDelegate 这 个 
Protocol， 所 以 就 需要 实现 该 协议 里 面 填充 音频 数据 的 方法 ， 而 实现 该 
方法 实际 上 束 是 运行 阶段 的 核心 控制 。 这 里 先 判断 AVSync 模 块 是 否 播 
放 完 成 或 者 播放 器 的 当前 状态 是 否 处 于 和 暂停 状态 ， 如 果 已 经 播放 完成 或 
者 是 暂停 状态 了 ， 那 么 就 需要 填充 为 静 首 数据 〈( 即 全 0 的 数据 》， 如 果 
没有 播放 完成 ， 则 调用 AVSync 模 块 的 获取 音频 帧 的 方法 ， 并 且 发 送 一 
个 指令 ， 让 VideoOutput 模 块 来 更 新 画面 数据 。 这 就 是 运行 中 的 最 核心 
的 部 分 了 ， 其 实 很 简单 ， 就 是 为 AudioOutput 模 块 填充 数据 ， 并 且 通 知 
VideoOutput 模 块 来 更 新 画面 。 


再 束 是 暂停 和 继续 播放 ， 其 实现 与 Android 平 台 很 类 似 ， 当 外 界 调 














用 暂停 和 继续 的 时 候 ， 调 用 AudioOutput 模 块 的 暂停 和 继续 就 可 以 了 ， 
其 实 束 是 让 我 们 的 播放 器 驱动 端 来 暂停 和 继续 。 





5.6.3 ”销毁 阶段 
1.Android 平 台 


销毁 阶段 其 实 束 是 初始 化 阶段 的 逆 过 程 ， 首 先 应 该 中 断 媒 体 资 源 的 
连接 通道 ， 可 调用 AVSync 模 块 的 interruptRequest 方 法 来 实现 ， 然 后 再 来 
看 一 下 初始 化 阶段 的 线程 有 没有 执行 结束 ， 如 采 没 有 执行 结束 则 等 待 它 
的 结束 ， 所 以 这 里 需要 使 用 排 程 的 方法 pthread_join 等 竺 初始 化 线程 执行 
结束 。 然 后 优先 停止 VideoOutput， 直 接 调用 VideoOutput 的 stopOutput 方 
法 ， 紧 接着 再 暂停 首 频 输出 模块 ， 然 后 销毁 AVSync 模 块 ， 该 模块 会 等 
待 解码 线程 的 结束 并 且 销 毁 解码 器 (输入 模块 )， 最 后 再 调用 音频 输出 
模块 的 销毁 方法 ， 这 样 就 可 以 销毁 掉 所 有 的 模块 了 。 


2.iOS 平 台 


根据 运行 阶段 的 介绍 我 们 可 以 知道 ， 由 于 首 视 频 对 齐 策略 的 影响 ， 
整个 播放 过 程 其 实 是 由 音频 来 驱动 的 ， 所 以 在 销毁 阶段 肯定 需要 首先 停 
止 音频 ， 所 以 这 里 首先 调用 AudioOutput 对 象 的 stop 方 法 ; 然后 应 该 停止 
AVSync 模 块 ， 由 于 该 模块 包含 了 解码 线程 ， 所 以 需要 汤 开 输入 模块 的 
连接 ， 这 里 首先 应 该 判断 输入 模块 打开 连接 通道 是 否 成 功 ， 如 条 没有 打 
开 成 功 ， 则 应 该 中 断 连接 ; 如 果 打 开 成 功 ， 则 应 该 调用 AVSync 模 块 的 
销毁 方法 《里面 会 把 音频 队列 、 视 频 队 列 、 解 码 线程 以 及 解码 右 都 销毁 
反 ， 有 具体 实现 请 参考 前 面 的 销毁 方法 ) ; 最 后 一 步 应 该 是 停止 
VideoOutput 模 块 ， 通 过 调用 VideoOutput 的 销毁 资源 的 方法 (里面 将 会 
销毁 FrameBuffer、Renderbuffer、Program 等 ， 具 体 实 现 请 参考 前 面 章 节 
的 销毁 方法 ) 来 实现 ， 最 终 再 将 VideoOutput 这 个 自 定义 的 view 从 
ViewController 中 移 除 ， 至 此 销毁 阶段 就 实现 完毕 了 。 

















5.7 本章 小 结 


视频 播放 器 已 经 实现 完毕 ， 下 面 来 回顾 一 下 整个 设计 与 开发 阶段 。 
在 此 之 前 ， 需 要 说 明 的 是 ， 在 书 中 大 量 多 列 代码 可 不 是 一 件 好 事 ， 因 此 
本 书 会 尽量 少 地 罗列 代码 ， 而 是 引导 大 家 一 起 逐步 设计 并 实现 这 区 播放 
船 。 本 章 移 将 其 拆 分 为 各 个 子 模块 并 逐一 实现 。 


:首先 实现 了 输入 模块 (或 者 称 为 解码 模块 )， 输 出 音频 帧 是 
AudioFrame， 其 中 的 主要 数据 是 PCM 宰 数据， 输出 视频 帧 是 
VideoFrame， 其 中 的 主要 数据 是 YUV420P 的 裸 数 据 。 


.然后 实现 了 音频 播放 模块 ， 输 入 是 解码 出 来 的 AudioFrame， 直 接 
就 是 SInt16 表 示 的 sample 格 式 的 数据 ， 输 出 则 是 输出 到 Speaker 用 户 能 够 
直接 听 到 声音 。 


.接着 实现 了 视频 播放 模块 ， 输 入 是 解码 出 来 的 VideoFrame， 其 中 
存放 的 是 YUV420P 格 式 的 数据 ， 在 演 染 过 程 中 可 使 用 OpenGL ES 的 
es 
理 屏 幕 上 。 


之 后 就 是 音 视频 同步 模块 了 ， 它 的 工作 主要 由 两 部 分 组 成 : 第 一 
部 分 是 负责 维护 解码 线程 ， 即 负责 输入 模块 的 管理 ， 另 外 一 部 分 是 音 视 
频 同步 ， 可 问 外 部 提供 填充 音频 数据 的 接口 和 获取 视频 帧 的 接口 ， 以 保 
证 所 提供 的 数据 是 同步 的 。 


最 后 编写 一 个 中 控 系 统 ， 人 负责 将 AVSync 模 块 、AudioOutput 模 块 、 
VideoOutput 模 块 组 织 起 来 ， 最 重要 的 就 是 维护 这 几 个 模块 的 生命 周 
期 ， 由 于 其 中 存在 多 线程 的 问题 ， 所 以 需要 重点 注意 的 是 ， 应 在 初始 
化 、 运 行 、 销 毁 各 个 阶段 保证 这 几 个 模块 可 以 协同 有 序 地 运行 ， 同 时 中 
ee 
富 止 等 接口 。 


























第 6 草 “” 音 视频 的 采集 与 编码 


前 面 4 章 探 讨 了 声音 与 画面 的 解码 与 渲染 ， 第 5 章 完 成 了 一 个 视频 播 
放 右 的 项 目 。 对 于 一 个 完整 的 多 媒体 App 来 说 ， 只 有 播放 而 没有 录制 是 
不 够 的 ， 对 于 视频 的 录制 ， 最 重要 的 就 是 声 首 和 男 面 采集 和 编码 ， 本 章 
束 来 学 习 首 视频 的 采集 和 编码 ， 紧 接着 第 7 章 将 会 通过 一 个 完整 的 录制 
视频 的 项 目 来 妃 回 本 章 所 学 的 内 容 。 











6.1 音频 的 采集 


本 节 将 会 学 习 Android 平 台 与 iOS 平 台 音 频 采 集 的 知识 ， 请 不 太 了 解 
音频 基础 知识 的 读者 先 回头 看 第 1 章 的 内 容 ， 因 为 在 音 视 频 的 开发 过 程 
中 ， 经 常 要 涉及 这 些 基 础 知识 ， 掌 握 了 这 些 重 要 的 概念 之 后 ， 开 发 过 程 
中 遇 到 的 很 多 参数 和 流程 就 会 更 加 容易 理解 。 








6.1.1 Android 平 台 的 音频 采集 


Android  SDK 提 供 了 两 套 音频 采集 的 API， 分 别 是 : MediaRecorder 
和 AudioRecord。 前 者 是 一 个 更 加 上 层 的 API， 它 可 以 直接 对 手机 麦克 风 
录入 的 音频 数据 进行 编码 压缩 (如 AMR、MP3 等 ) ， 并 存储 为 文件 ; 
后 者 则 更 加 接近 底层 ， 能 够 更 加 目 由 灵活 地 控制 ， 其 可 以 让 开发 者 得 到 
内 存 中 的 PCM 音 频 流 数据 。 如 果 想 做 一 个 简单 的 录音 机 ， 输 出 音频 文 
件 ， 则 推荐 使 用 MediaRecorder; 如 果 需 要 对 音频 做 进一步 的 算法 处 
理 ， 或 者 需要 采用 第 三 方 的 编码 库 进 行 压缩 ， 又 或 者 需要 用 到 网 络 传输 
等 场景 中 ， 那 么 只 能 使 用 AudioRecord 或 者 OpenSL ES， 其 实 
MediaRecorder 底 层 也 是 调用 了 AudioRecord 与 Android ”Framework 层 的 
AudioFlinger 进 行 交 互 的 。 而 我 们 的 项 目 场景 显然 更 倾 问 于 第 二 种 方 
式 ， 即 使 用 AudioRecord 来 采集 音频 ， 至 于 OpenSL ES 录制 音频 的 APT， 
由 于 其 属于 Native 层 提供 的 接口 ， 因 此 本 章 不 做 讲解 。 


既然 选择 了 AudioRecord 这 个 Android 平 台所 提供 的 SDK， 那 么 取得 
内 存 中 的 PCM 数 据 之 后 又 该 如 何 处 理 呢 ? 在 多 媒体 App 中 ， 一 般 会 对 声 
音 进 行 特效 处 理 ， 然 后 将 其 编码 为 一 个 AAC 或 者 MP3 文 件 ， 至 于 音频 的 
处 理 前 面 还 没有 讲解 ， 而 对 于 音频 的 编码 本 章 后 续 会 进行 学 习 ， 所 以 这 
里 先 和 暂时 简单 地 写成 PCM 文 件 。 在 录制 结束 之 后 ， 可 以 从 SD 卡 中 读 取 
该 PCM 文 件 ， 然 后 使 用 ffplay 进 行 播放 〈 如 何 用 ffplay 播 放 PCM 文 件 ， 是 
第 3 章 所 讲 的 内 容 ， 如 果 忘 记 了 可 以 回头 去 查看 命令 ) 以 试听 效果 。 


如 果 想 要 使 用 AudioRecord 这 个 API， 则 需要 在 应 用 
AndroidManifest.xml 的 配置 文件 中 增加 权限 ， 代 码 如 下 : 




















<uses-permission android:name="android,permission,RECORD_AUDIO” /> 








若 要 把 录制 出 来 的 数据 写 入 文件 中 ， 则 需要 配置 写 入 文件 的 权限 ， 
代码 如 下 : 





<USesS- 
permission android:name="android.permission.WRITE EXTERNAL_STORAGE" /> 





接 下 来 了 解 一 下 AudioRecord 的 工作 流程 。 


1. 配 置 参数 ， 初 始 化 内 部 的 音频 缓冲 区 


首先 来 看 一 下 AudioRecord 的 配置 参数 ，AudioRecord 是 通过 构造 
数 来 配置 参数 的 ， 其 函数 原型 如 下 : 


[ea 





public AudioRecord(int audioSource, int sampleRateInHz, int channelcConfig, i 
audioFormat, int bufferSizeInBytes). 





上 述 参 数 所 代表 的 含义 及 其 在 各 种 场景 下 应 该 传递 的 值 具体 说 明 如 
下 


audioSource， 该 参数 指 的 是 音频 采集 的 输入 源 ， 可 选 值 以 音量 的 
形式 定义 在 类 AudioSource (MediaRecorder 的 一 个 内 部 类 ) 中 ， 常 用 的 
值 包括 : 


:DEFAULT (默认 ) 





.VOICE_RECOGNITION (用 于 语音 识别 ， 等 同 于 DEFAULT) 
-MIC (由 手机 麦克 风 输 入 ) 
.VOICE_ COMMUNICATION 〈 用 于 VoIP 应 用 ) 等 


.sampleRateInHz， 用 于 指定 以 多 大 的 采样 频率 来 采集 音频 ， 现 在 用 
得 最 多 的 束 是 44100 的 采样 频率 〈 了 驶 是 我 们 常 说 的 44.1kHz 的 采样 率 ) ， 
如 果 使 用 该 采样 率 初 始 化 录音 器 失败 的 话 ， 则 可 以 使 用 16000 的 采样 频 
率 ( 就 是 我 们 常 说 的 16kHz 的 采样 率 ) 来 尝试 一 下 。 


channelConfig， 该 参数 用 于 指定 录 首 器 采集 几 个 声 道 的 声 首 ， 可 
选 值 以 常量 的 形式 定义 在 AudioFormat 类 中 ， 常 用 的 值 包括 : 


:CHANNEL IN MONO (〈 单 声 道 ) 











.CHANNEL IN STEREO (立体 声 ) 


:由 于 现在 的 移动 设备 部 是 伪 立 体 声 的 采集 ， 所 以 出 于 性 能 考虑 ， 
一 般 按 照 单 声 庆 进行 采集 ， 然 后 在 后 期 处 理 中 将 数据 转换 为 立体 声 。 





audioFormat， 这 就 是 基础 概念 里 面 介绍 过 的 采样 的 表示 格式 ， 可 
选 值 以 常量 的 形式 定义 在 AudioFormat 类 中 ， 常 用 的 值 包括 : 


:ENCODING PCM _ 16BIT (16bit) 

ENCODING_PCM_8BIT (8bit) 

注意 ， 前 者 可 以 保证 兼容 大 部 分 的 Android 手 机 。 

'bufferSizeInBytes， 这 是 最 难 理解 但 最 重要 的 一 个 参数 ， 其 配置 的 
是 AudioRecord 内 部 的 首 频 绥 冲 区 的 大 小 ， 而 有 具体 的 大 小 ， 不 同 的 厂商 
会 有 不 同 的 实现 ， 该 首 频 缓冲 区 越 小 ， 产 生 的 延 时 就 会 越 小 。 


AudioRecord 类 提供 了 一 个 静态 方法 用 于 确定 该 bufferSizeInBytes 的 函 
数 ， 其 原型 如 下 : 





int getMinBufferSize(int sampleRateInHz, int channelConfig, int audioFormat ) 





:在 实际 开发 中 ， 强 烈 建议 由 该 函数 计算 出 需要 传 入 的 
bufferSizeInBytes， 而 不 是 使 用 自己 计算 的 值 。 


配置 好 AudioRecord 之 后 ， 应 该 检查 一 下 AudioRecord 的 当前 状态 ， 
因为 极 有 可 能 会 因为 权限 (用 户 未 对 我 们 的 应 用 授权 访问 麦克 风 的 权 
限 ) ， 或 者 由 于 其 他 应 用 没有 正确 地 释放 录音 器 等 原因 ， 使 得 构造 的 
AudioRecord 的 状态 不 正常 。 可 以 通过 AudioRecord 的 方法 getState 来 获取 
当前 录音 器 的 状态 ， 然 后 与 AudioRecord.STATE _INITAILIZED 进 行 比 
较 ， 如 果 不 相 等 ， 则 提示 用 户 尚 未 获得 录音 权限 。 


2. 开 始 采集 


竺 创建 好 AudioRecord 对 象 之 后 ， 束 可 以 开始 进行 音频 数据 的 采集 
了 ， 可 通过 下 面 的 函数 来 控制 麦克 风 音 频 采 集 的 开始 : 




















audioRecord.startRecording(); 





3. 提 取 数 据 


执行 完 上 述 命令 之 后 ， 需 要 一 个 线程 ， 从 AudioRecord 的 缓冲 区 中 





将 音频 数据 不 断 地 读 取 出 来 。 注 意 ， 访 过程 一 定 要 及 时 ， 人 否则 会 出 

现 “overrun” 的 错误 ， 该 错误 在 首 频 开发 中 比较 常见 ， 其 意味 着 应 用 层 没 
有 及 时 地 “ 取 走 ” 首 频 数据 ， 从 而 导致 内 部 的 音频 缓冲 区 淤 出 。 读 取 录 音 
器 采集 到 的 PCM 数 据 的 方法 原型 如 下 所 示 : 





public int read(byte[] audioData, int offsetInBytes，int sizeInBytes) 








当然 ， 也 可 以 读 取 short 数 组 类 型 的 数据 ， 因 为 其 更 符合 底层 的 一 些 
处 理 ， 毕 竟 我 们 的 设置 是 每 个 sample 都 由 一 个 short 来 表示 ， 方 法 原型 如 
下 : 





public int read(short[] audioData, int offsetIinShorts, int SizeInShorts ) 





拿 到 数据 之 后 就 可 以 直接 写 入 文件 了 ， 可 以 通过 Java 层 提供 的 
FileOutputStream 将 数组 直接 写 到 文件 中 。 


4. 停 止 采 集 ， 释 放 资 源 


当 我 们 想 要 停止 录音 的 时 候 ， 可 调用 AudioRecord 的 stop 方 法 来 实 
现 ， 并 且 最 终 要 对 该 AudioRecord 的 实例 调用 release， 人 代表 释 放 掉 了 录音 
器 ， 以 便 设 备 的 其 他 应 用 可 以 正 浓 使 用 录音 右 ， 这 一 点 是 十 分 重要 的 。 
可 以 通过 布尔 型 变量 的 控制 先 读 取 数 据 的 线程 并 结束 ， 然 后 再 停止 和 释 
放 AudioRecord 实 例 ， 最 终 再 关闭 写 入 数据 的 文件 ， 和 否则 会 有 文件 写 出 
不 完全 的 问题 。 


本 节 的 实例 在 代码 仓库 里 是 AudioRecorder 项 目 ， 运 行 该 项 目 ， 进 入 
录音 界面 ， 点 击 record 开 始 录 音 ， 点 击 stop 停 止 了 录音， 然后 利用 adb pull 
导出 PCM 文 件 : 














adb pull /mnt/sdcard/vocal.pcm ~/Desktop/ 





利用 ffplay 播 放声 音 : 





ffplay -f si6le -Sample_rate 44100 -channels 1 -i vocal.pcem 





也 可 以 利用 FFmpeg 将 PCM 文 件 转换 为 WAV 文 件 ， 然 后 使 用 PC 上 的 
系统 播放 器 进行 播放 : 





ffmpeg -f si6le -sample rate 44100 -channels 1 -i Vvocal.pcm 
acodec pcm_si6le 
Vocal .wav 





6.1.2 iOSs 平 台 的 音频 采集 


iOS 平 台 提 供 了 多 套 API 采 集 音 频 ， 如 果 开 发 者 想 要 直接 指定 一 个 路 
径 ， 则 可 以 将 录制 的 音频 编码 到 文件 中 ， 可 以 使 用 AVAudioRecorder 这 
套 API， 其 优点 是 简单 易 用 ， 但 是 其 对 于 想 要 实时 地 在 内 存 中 获得 录音 
的 数据 来 说 ， 限 制 性 非常 强 。 对 此 ，iOSs 平 台 提 供 了 两 个 层次 的 API 来 协 
助 实现 ， 第 一 种 方式 是 使 用 AudioQueue， 第 二 种 方式 是 使 用 
AudioUnit， 实 际 上 AudioQueue 是 AudioUnit 更 高 级 的 封装 ， 相 比较 于 
AudioUnit， 它 提供 的 功能 更 单一 ， 使 用 的 接口 调用 更 简单 ， 有 具体 使 用 
哪个 层次 的 API 需 要 根据 应 用 场景 来 决定 。 如 果 仪 仅 是 要 获取 内 存 中 的 
录音 数据 ， 然 后 再 进行 编码 输出 〈 有 可 能 是 输出 到 本 地 和 磁盘， 也 有 可 能 
是 网 络 ) ， 那 么 使 用 更 高 级 的 AudioQueue 的 API 会 更 好 一 些 ;， 如 果 要 使 
用 更 多 的 音效 处 理 ， 以 及 实时 的 监听 《在 耳机 中 可 以 听 到 上 自己 说 的 话 ， 
在 唱歌 的 App 中 这 是 一 个 最 基础 的 功能 ) ， 那 么 使 用 AudioUnit 会 更 加 方 
便 一 些 。 本 书 的 代码 案例 中 ， 使 用 的 都 是 AudioUnit， 因 为 本 书 案例 实 
现 的 场景 不 仅 需 要 耳 返 ， 还 需要 音效 的 实时 处 理 等 功能 。 


要 想 使 用 iOS 的 麦 元 风 进 行 录音 ， 首 先 要 为 App 声 明 使 用 万 元 风 的 
权限 ， 在 新 建 的 目录 下 面 找到 info.plist， 然 后 在 其 中 新 增 麦 克 风 权限 的 


声明 : 
































<key>NSMicrophoneUsageDescription</key> 
<string>microphoneDesciption</string> 





这 样 添 加 之 后 ， 系 统 就 知道 了 App 要 访问 系统 的 麦克 风 权 限 。 这 里 
使 用 的 AudioUnit， 本 书 的 第 4 章 在 讨论 音频 泻 染 的 时 候 已 经 有 很 详尽 的 
讲解 ， 所 以 这 里 直接 来 看 如 何 使 用 AudioUnit 实 现 人 声 录制 ， 同 时 ， 还 
会 发 送 给 耳机 一 个 监听 耳 返 《等 完成 这 一 功能 之 后 ， 读 者 肯定 会 感叹 ， 
这 些 在 iOS 平 台 上 实现 起 来 是 多 么 的 简单 ) 。 

与 第 4 章 讲解 的 一 样 ， 要 使 用 AudioUnit， 首 先 需 要 通过 
AVAudioSession 来 开局 硬件 设备 以 及 对 硬件 设备 做 一 些 设置 ， 然 后 才能 
使 用 AudioUnit， 而 AVAudioSession 的 具体 使 用 方法 也 和 前 面 讲 解 的 一 
致 ， 下 面 再 来 熟悉 一 下 : 


1) 获得 AVAudioSession 的 实例 ， 由 于 AVAudioSession 是 单 例 模式 





设计 的 ， 所 以 在 这 里 只 需要 调用 它 的 单 例 方法 就 可 以 获得 。 


2) 为 AudioSession 设 置 使 用 类 别 ， 由 于 要 在 录 首 的 同时 为 用 户 输 送 
一 路 监听 耳 返 ， 所 以 这 里 选择 使 用 类 别 
AVAudioSessionCategoryPlayAndRecord， 本 书 前 面 的 章节 中 ， 仅 在 做 音 
频 演 染 时 使 用 到 类 别 AVAudioSessionCategoryPlayback。 上 所 以 设置 这 个 
类 别 的 目的 是 告诉 系统 的 硬件 应 该 为 我 们 的 App 提 供 什 么 样 的 服务 。 


3) 为 AudioSession 设 置 预 设 的 采样 率 。 
4) 局 用 AudioSession 。 


5) 为 AudioSession 设 置 路 由 监听 器 ， 目 的 就 是 在 采集 音频 或 者 音频 
输出 的 线路 发 生变 化 的 时 候 〈 比 如 插 拔 耳机 、 效 牙 设备 连接 成 功 等 ) 回 
调 此 方法 ， 以 便 开发 者 可 以 重新 设置 使 用 当前 最 新 的 麦 殉 风 或 扬声器 。 


至 此 AudioSession 弃 设置 好 了 ， 接 下 来 的 事情 就 是 构造 该 应 用 所 使 
用 的 AUGraph， 其 构造 步 又 与 第 4 章 中 首 频 泻 染 构造 的 AUGraph 也 很 类 
似 ， 因 为 这 里 要 使 用 录音 功能 ， 所 以 需要 局 用 RemoteIO 这 个 AudioUnit 
的 InputElement。RemotelO 这 个 AudioUnit 比 较 特 别 ，Input-Element 实 际 
上 使 用 的 是 麦克 风 ， 而 OutputElement 使 用 的 则 是 扬声器 ， 所 以 这 里 首先 
会 局 用 RemoteIOUnit 的 InputElement。 为 了 文 持 所 开发 的 App 可 以 在 后 续 
Mix 一 轨 伴 委 这 一 扩展 功能 ， 在 AUGraph 中 需要 增加 MultiChannelMixer 
这 个 AudioUnit。 由 于 每 个 AudioUnit 的 输入 输出 格式 并 不 相同 ， 所 以 这 
里 还 要 使 用 AudioConvert 这 个 AudioUnit 将 输入 的 AudioUnit 连 接 到 
MixerUnit 上 。 最 终 将 MixerUnit 连 接 到 RemoteIO 这 个 AudioUnit 的 
OutputElement， 将 声音 发 送 到 耳机 的 扬声器 中 《如 果 直 接 发 送 到 手机 的 
扬 人 中 就 会 出 现 啸 叫 ) ， 这 样 就 将 AUGraph 整 体 地 建立 起 来 了 ， 如 图 
6-1 有 所 不 。 
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图 6-1 


此 外 ， 这 里 还 需要 实现 一 个 功能 ， 就 是 将 录音 得 到 的 数据 存储 为 一 
个 文件 。 若 我 们 想 要 获取 某 个 AudioUnit 的 数据 ， 并 将 其 写 入 文件 ， 那 
么 可 以 在 它 后 一 级 的 AudioUnit 中 增加 一 个 回调 ， 然 后 在 回调 方法 中 将 
该 AudioUnit 的 数据 泻 染 出 来 并 发 送 给 下 一 级 的 AudioUnit， 同 时 也 可 以 
去 写 文 件 ， 这 种 方式 已 经 在 音频 泻 染 的 时 候 使 用 过 了 。 这 里 就 为 
RemoteIO 这 个 AudioUnit 的 OutputElement 增 加 一 个 回调 ， 代 码 如 下 : 








AURenderCallbackStruct finalRenderProc; 

finalRenderpProc,inputProc = &renderCallback ; 

finalRenderpProc,inputProcRefCon = (_ bridge void *)self; 

status = AUGraphSetNodeInputCallback(_auGraph, _ioNode, 90, &finalRenderProc) 





然后 在 上 述 回 调 方法 的 实现 中 ， 将 它 的 前 一 级 MixerUnit 的 数据 泻 
染 出 来 ， 同 时 写 文 件 ， 代 码 如 下 : 





static OSStatus renderCallback(void *inRefCon, 

AudioUnitRenderActionFlags *ioActionFlags, const AudioTimeStamp 
*inTimeStamp, UInNt32 inBusNumber，UInt32 inNumberFrames, AudioBuffer 
*ioData)t 

OSStatus result = noErr; 

unsafe_unretained AudioRecorder *THIS = (_ bridge AudioRecorder *)inRe 

AudioUnitRender (THIS-> mixerUnit, ioActionFlags, 

inTimeStamp, 0, inNumberFrames, ioData); 
// Write To File 
return result,; 





对 于 写 文件 ， 后 面 的 6.3 节 中 会 使 用 AudioToolbox 来 编码 文件 ， 但 是 


这 里 将 使 用 一 个 更 高 级 的 API 来 写 文 件 ， 即 ExtAudioFile，iOS 提 供 的 这 
个 API 只 需要 设置 好 输入 格式 、 输 出 格式 以 及 输出 文件 路 径 和 文件 格式 
即 可 ， 代 码 如 下 : 





AudioStreamBasicDescription destinationFormat,; 

CFURLRef destinationURL,; 

result = ExtAudioFileCreateWithURL(destinationURL, kAudioFileCAFType, 
&destinationFormat, NULL, kAudioFileFlags_EraseFile, &audioFile); 

result = ExtAudioFileSetProperty(audioFile, 
kExtAudioFileProperty_ClientDataFormat, sizeof(clientFormat), 
&clientFormat); 

UINt32 codec = kAppleHardwareAudioCodecManufacturer; 

result = ExtAudioFileSetProperty(audioFile, 
kExtAudioFileProperty_CodecManufacturer, sizeof(codec), &codec); 





在 需要 编码 文件 时 直接 写 入 数据 : 





ExtAudioFilewriteAsync(audioFile, inNumberFrames, ioData); 





在 停止 写 入 的 时 候 调用 关闭 方法 即 可 : 





ExtAudioFileDispose(audioFile); 





最 终 就 可 以 得 到 我 们 想 要 的 文件 了 ， 大 家 可 以 从 应 用 的 沙 盒 中 将 保 
存 的 文件 读 取 出 来 (在 XCode 中 利用 Device 取 出 文件 或 者 使 用 Explorer 
等 软件 取出 ) ， 然 后 播放 试听 一 下 。 


本 节 的 代码 示例 是 代码 仓库 中 的 AudioRecorder， 建 议 读者 运行 该 项 
目的 时 候 插 上 耳机 ， 以 免 设 备 发 出 啸 叫 的 声音 ， 另 外 ， 可 点 击 recorder 
开始 录 首 ， 点 击 stop 结 束 录 首 ， 并 且 可 取出 对 应 的 录音 文件 在 PC 上 用 系 
统 播放 器 进行 播放 试听 。 








6.2 ”视频 画面 的 采集 


视频 画面 的 采集 主要 是 使 用 各 个 平 合 提供 的 摄像 头 API 来 实现 的 ， 
在 为 摄像 头 设置 了 合适 的 参数 之 后 ， 将 摄像 头 实时 采集 的 视频 帧 泻 染 到 
屏 人 右上 提供 给 用 户 预 窟 ， 然 后 将 该 视频 帧 编码 到 一 个 视频 文件 中 ， 其 使 
用 的 编码 格式 一 般 是 H264。 当 然 ， 最 终 我 们 还 要 配 上 音频 ， 人 否则 没有 
首 频 文件 的 视频 就 成 了 早期 的 默片 电影 


本 节 将 主要 学 习 如 何在 Android 和 iOS 平 台 上 利用 各 自 平 台 提 供 的 摄 
像 头 API， 和 采集 出 正确 的 视频 帧 并 绘制 到 屏幕 上 ， 有 具体 的 编码 将 会 在 后 
续 进 行 讨论 。 











6.2.1 _ Android 平台 的 视频 画面 采集 
1. 权 限 配 置 


要 想 使 用 Android 平 台 提 供 的 摄像 头 ， 首 先 必须 在 配置 文件 中 添加 
如 下 权限 要 求 : 





<uses-permission android:name="android.permission.CAMERA" /> 


伴随 着 Android 系 统 的 发 展 ，Android 的 摄像 头 API 也 已 经 有 了 非常 
大 的 变化 ， 现 在 选用 的 Camera 的 使 用 方式 为 设置 预览 纹理 的 形式 ， 而 不 
是 设置 YUV 数 据 回调 的 方式 ， 这 是 因为 得 到 纹理 ID 之 后 ， 可 以 很 方便 
地 进行 视频 滤 镜 处 理 ， 并 且 很 容易 泻 染 到 界面 上 。 


2. 打 开 摄 像 头 
Android 平 台 提 供 了 打开 摄像 头 的 API， 其 函数 原型 如 下 : 


public static Camera open(int cameraId ) 


需要 传 入 的 参数 就 是 摄像 头 的 ID， 从 手机 的 发 展 历史 可 以 知道 ， 先 
有 后 置 摄像 头 ， 然 后 才 有 前 置 摄像 头 ， 甚 至 目前 已 经 有 部 分 手机 有 了 更 
多 的 辅助 摄像 头 ， 所 以 摄像 头 的 ID 排列 是 后 置 摄像 头 是 0， 前 置 摄像 头 
是 1， 然 后 才 是 其 他 的 摄像 头 ， 即 便 是 这 样 ， 我 们 也 要 使 用 CameraInfo 
类 里 面 的 两 个 常量 ， 它 们 分 别 如 下 。 

.CAMERA_FACING_BACK 代 表 后 置 摄像 头 。 

.CAMERA_FACING_FRONT 代 表 前 置 摄像 头 。 

该 函数 返回 的 就 是 一 个 摄像 头 的 实例 ， 如 果 返 回 的 是 NULEL， 或 者 
抛 出 异常 (因为 不 同 厂商 所 给 出 的 返回 是 不 一 样 的 ) ， 则 代表 用 户 没 有 
授权 该 应 用 访问 摄像 头 。 
3. 配 置 摄像 头 参数 





获取 到 该 摄像 头 实例 之 后 ， 要 为 该 摄像 头 实例 设置 对 应 的 参数 ， 
数 的 配置 主要 涉及 如 下 两 个 参数 。 


第 一 个 参数 是 预览 格式 ， 一 般 设 置 为 NV21 格 式 的 ， 实 际 上 就 是 
YUV420SP 的 格式 ， 即 UV 是 interleaved (交错 UVUVUV) 的 存放 ， 代 码 
设置 如 下 : 





List<Integer> SupportedPreviewFormats = parameters,.getSupportedPreviewFormat 
if (supportedPreviewFormats.contains(ImageFormat.NV21)) { 
parameters.setPpreviewFormat(ImageFormat.NV21); 
} else { 
throw new CameraParamSettingException(" 视 频 参 数 设置 错误 :设置 预览 图 像 格式 异 
常 "); 
} 






































上 述 代码 移 取 出 摄像 头 所 文 持 的 所 有 预览 格式 ， 然 后 判断 其 是 人 否 包 
含 我 们 要 设 定 的 格式 ， 如 果 包 含 ， 则 设置 进去 ， 如 果 不 包 含 ， 则 抛 出 异 
常 ， 让 客户 端 代码 进行 处 理 。 


dl 分 辨 率 的 尺寸 一 般 设 置 为 1280x720， 当 然 
对 于 某 些 应 用 来 说 ， 可 能 和 ini， > 辨 率 ， 代 码 设置 如 
下 : 











List<Size> supportedPreviewSizes = parameters ,getSupportedPreviewSizes() 
int previewwidth = 640;// 1280 
int previewHeight = 480;// 720 
boolean isSupportPreviewSize = isSupportPreviewSize( 
supportedPreviewSizes, previewwWidth, previewHeight); 
if (isSupportPreviewSize) { 
parameters.setPpreviewSize(previewWidth, previewHeight); 
} else { 
throw new CameraParamSettingException(" 视 频 参 数 设置 错误 :设置 预览 的 尺寸 异常 ")，; 
} 









































上 述 代码 会 取出 摄像 头 所 文 持 的 所 有 分 辨 率 列 表 ， 然 后 判断 要 设置 
的 分 辩 紊 是否 在 支持 的 列表 中 ， 如 果 包 含 ， 则 设置 进去 ,否则 抛 出 异 
常 ， 让 客户 端 代码 进行 处 理 。 


配置 完 上 述 参数 的 设置 之 后 ， 就 需要 将 该 参数 设置 给 Camera 实 例 
了 ， 代 码 如 下 : 








try { 
mCamera.setParameters(parameters); 


} catch (Exception e) { 
throw new CameraParamSettingException(" 视 频 参数 设置 错误 ")， 











} 
在 宽 高 的 设置 中 ， 细 心 的 读者 可 能 已 经 注意 到 了 宽 是 1280 (或 者 


640) ， 高 是 720 (或 者 480) ， 这 是 因为 摄像 头 默 认 采 集 出 来 的 视频 男 
面 是 横 版 的 ， 在 显示 的 时 候 ， 需 要 获取 当前 这 个 摄像 头 采 集 出 来 的 画面 
的 旋转 角度 ， 那 么 具体 的 旋转 角度 应 该 如 何 获取 呢 ? 代码 如 下 : 











int degrees = 0; 
CameraInfo info = new CameraInfo(); 
Camera.getCcameraInfo(cameraId, info); 
if (info.facing == Camera.CameraInfo.CAMERA FACING FRONT) { 
degrees = (info,orientation) % 360; 
} else { // back-facing 
degrees = (info,orientation + 360) % 360; 





根据 不 同 的 摄像 头 取出 对 应 的 CameraInfo， 该 CameraInfo 中 的 
orientation 变 量 表示 的 束 是 该 摄像 头 采 集 到 的 画面 的 旋转 角度 ， 不 过 ， 
要 想 正 确 地 旋转 还 需要 再 处 理 一 下 ， 如 果 是 前 置 摄像 头 ， 则 直接 对 360 
进行 取 模 ， 如 果 是 后 置 摄像 头 ， 则 先 加 上 360 度 再 取 模 360， 从 而 就 能 得 
到 想 要 旋转 的 角度 。 得 到 的 这 个 角度 对 于 后 续 可 以 将 视频 帧 正确 地 显示 
0 


4. 摄 像 头 的 预 蜗 


配置 好 摄像 头 之 后 ， 剩 下 的 事情 就 是 配置 摄像 头 采集 每 一 帧 图 像 的 
回调 ， 并 且 获 取 到 图 像 之 后 将 图 像 泻 染 到 屏幕 上 。 本 书 的 第 4 章 已 经 讲 
解 过 了 如 何 通 过 OpenGL ES 来 泻 染 图 像 ， 这 里 先 来 回顾 一 下 : 首先 把 图 
像 解 码 为 RGBA 格 式 ， 然 后 将 RGBA 格 式 的 字 节 数组 上 传 到 一 个 纹理 
上 ; 最终 将 该 纹理 泻 染 到 屏幕 上 。 所 以 这 里 的 泻 染 到 屏幕 上 也 会 使 用 
OpenGL ES 来 实现 。 由 于 这 里 要 显示 的 纹理 是 摄像 头 按照 一 定 的 刷新 频 
Cfps) 来 更 新 的 ， 所 以 最 终 显示 出 来 的 就 是 我 们 预期 的 预览 效果 














整个 预览 过 程 分 为 三 个 阶段 ， 分 询 为 开始 预览 、 刷 新 预览 与 结束 预 
览 。 我 们 首先 讲解 开始 预览 阶段 ， 整 体 流程 如 图 6-2 所 示 。 
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图 6-2 


如 图 6-2 所 示 ， 首 先 在 Activity 的 界面 层 构 造 一 个 SurfaceView 用 于 显 

泻 染 结果 ; 然后 在 Native 层 用 EGL 和 OpenGL ES 构造 一 个 泻 染 线程 用 
笠 演 染 采 该 SurfaceView， 同 时 在 该 泻 染 线程 中 生成 一 个 纹理 ID 并 传递 到 
Java 层 ; Java 层 DI 4 Siace Texture， 之 后 再 将 该 
SurfaceTexture 作 为 Camera 的 预览 目标 。 最 终 调 用 Camera 的 开始 预览 方 


法 ， 这 样 就 可 以 将 摄像 头 采 集 到 的 视频 帧 泻 染 到 设备 屏幕 上 了 。 


但 是 如 何 让 摄像 头 按照 频率 采集 出 来 的 视频 帧 依次 进行 泻 染 呢 ? 答 
案 是 在 图 6-3 中 构造 好 了 SurfaceTexture 对 象 之 后 ， 要 为 该 对 象 设 置 视频 
帧 可 用 时 的 监听 器 ， 实 际 上 就 是 当 SurfaceTexture 在 可 以 更 新 的 时 候 调 用 
该 监听 器 《〈 即 当 Camera 设 备 采 集 到 一 帧 视频 帧 的 时 候 会 回调 该 监听 器 方 
法 ) 。 将 纹理 ID 设置 给 摄像 头 的 代码 如 下 : 





mCameraSurfaceTexture = new SurfaceTexture(textureId ) ， 

try { 
mCamera.setPreviewTexture(mCameraSurfaceTexture); 
mCameraSurfaceTexture.setOnFrameAvailableListener(frameAvailableListener 
mCamera.startPpreview( ); 

} catch (Exception e) { 
throw new CamerapParamSettingException(" 设 置 预览 纹理 错误 " ) ; 


} 








如 上 所 述 ， 代 码 中 的 frameAvailableListener 是 继承 自 
OnFrameAvailableListener 内 部 类 的 一 个 实例 ， 在 该 内 部 类 中 重 写 
onFrameAvailable 方 法 ， 在 该 方法 中 调用 Native 层 的 方法 来 泻 染 摄像 头 刚 
刚 捕 捉 的 图 像 。 调 用 到 了 Native 层 之 后 ， 将 会 委托 到 泻 染 线程 中 去 调用 
Java 层 的 SurfaceTexture 的 updateTexImage 方 法 〈 因 为 必须 在 OpenGL ES 
的 泻 染 线 程 中 才 可 以 调用 该 方法 ， 所 以 绕 了 一 大 圈 ) 。 更 新 视频 帧 的 整 
体 流 程 如 图 6-3 所 示 。 
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图 6-3 


图 6-3 中 ， 当 VideoCamera 的 方法 updateTexture 执 行 完 毕 之 后 ， 就 说 
明 摄 像 头 采集 的 视频 帧 已 经 更 新 到 Native 层 生成 的 纹理 ID 上 了 ， 演 染 线 
程 就 可 以 把 该 纹理 ID 泻 染 到 界面 上 去 了 。 当 摄像 头 再 次 采集 到 一 帧 新 视 
频 帧 的 时 候 ， 束 会 周而复始 地 执行 上 述 过 程 ， 这 样 在 设备 屏幕 上 就 可 以 
流畅 地 看 到 摄像 头 的 预览 

对 于 演 染 线程 的 拱 建 以 及 如 何 将 一 帧 纹理 绘制 到 上 层 界 面 的 知识 已 
经 在 前 面 章节 中 讲解 过 了 ， 那 么 摄像 头 采 集 到 这 一 帧 视频 帧 之 后 是 如 何 
进行 演 染 的 呢 ?” 这 也 是 接 下 来 的 重点 ， 下 面 一 起 来 看 看 。 


前 面 提 a 到 过 ， 要 在 泻 染 线程 中 生成 一 个 纹理 ID， 然 后 传递 到 Java 








层 ， 再 由 Java 层 构造 成 一 个 SurfaceTexture 类 型 的 对 象 ， 并 将 Camera 的 
PreviewCallback 设 置 为 该 SurfaceTexture 对 象 。 由 于 摄像 头 采 集 出 来 的 祝 
频 帧 的 格式 是 NV21， 即 采集 出 来 的 一 帧 的 格式 是 YUV420SP， 
width*height 个 像素 点 共 占 用 了 width*height*3/2 个 字 节 数 ， 即 每 个 像素 
点 都 会 有 一 个 Y 放 到 数据 存储 的 前 widthxheight 个 数据 中 ， 每 四 个 像素 点 
共享 一 个 UV 放 到 后 半 部 分 进行 交错 存储 。 而 在 OpenGL 中 使 用 的 绝 大 部 
分 纹理 ID 都 是 RGBA 的 格式 ， 另 外 之 前 在 讲解 播放 器 项 目的 时 候 也 曾 讲 
过 Luminance 格 式 ， 但 是 那里 是 开辟 3 个 纹理 ID 来 表示 一 张 YUV 的 图 

片 ， 这 里 必须 使 用 一 个 纹理 ID 来 为 Camera 更 新 数据 ， 那 么 应 该 如 何 将 3 
个 Luminance 的 纹理 ID 合并 成 一 个 纹理 ID 了 呢 ? 幸好 OpenGL ES 的 扩展 
GL_OES_EGL image_external 定 义 了 一 个 纹理 的 扩展 类 型 ， 即 
GL_TEXTURE_EXTERNAL_OES， 否 则 整个 转换 过 程 将 会 非常 复杂 。 
同时 这 种 纹理 目标 对 纹理 的 使 用 方式 也 会 有 一 些 限制 ， 纹 理 绑 定 需要 绑 
定 到 类 型 GL_ TEXTURE _EXTERNAL OES 上 ， 而 不 是 类 型 
GL_TEXTURE_2D 上 ， 对 纹理 设置 参数 也 要 使 用 
GL_TEXTURE_EXTERNAL_OES 类 型 ， 生 成 纹理 与 设置 纹理 参数 的 代 
码 如 下 : 











glGenTextures(1, &texId); 

glBindTexture(GL_TEXTURE_ EXTERNAL_OES, texId); 
glTexParameteri(GL_TEXTURE_EXTERNAL_OES, GL_TEXTURE_ MAG_FILTER, GL_LINEAR); 
glTexParameteri(GL_ TEXTURE_EXTERNAL_OES, GL_TEXTURE_ MIN_FILTER, GL_LINEAR); 
glTexParameteri(GL_TEXTURE_EXTERNAL_OES, GL_TEXTURE_ WRAP_S, GL_CLAMP_TO_EDGE 
glTexParameteri(GL_TEXTURE_EXTERNAL_OES, GL_TEXTURE_ WRAP_T, GL_CLAMP_TO_EDGE 











在 实际 的 泻 染 过 程 中 绑 定 纹理 的 代码 如 下 : 





glActiveTexture(GL_TEXTUREOQ); 
glBindTexture(GL_TEXTURE_ EXTERNAL_OES, texId); 
glUniform1ii(uniformSamplers, 0); 





在 OpenGL ES 的 shader 中 ， 任 何 需要 从 纹理 中 采样 的 OpenGL ES 2.0 
的 shader 都 需要 声明 其 对 此 扩展 (GL_OES_EGL_image_external) 的 使 
用 ， 使 用 指令 如 下 : 











#extension GL_OES_EGL_image external : require 





这 些 shader 也 必须 使 用 samplerExternalOES 采 样 方式 来 声明 纹理 ， 其 


在 FragmentShader 中 的 代码 如 下 : 





static char* GPU_FRAME_FRAGMENT_SHADER = 





"#extension GL_OES_EGL_image external : require \n" 
"precision mediump float; \n" 
"uniform samplerExternalOES yuvTexSampler; \n" 
"varying vec2 yuvTexCoords,; \n" 
中 Nn' 
"void main() { \n" 
中 


gl1_FragColor = texture2D(yuvTexSampler, yuvTexCoords); \n" 
\ " 





至 此 ， 这 种 扩展 类 型 的 纹理 ID 从 创建 到 设置 参数 ， 再 到 真正 的 泻 染 
整个 过 程 已 经 处 理 完毕 ， 弄 清楚 了 这 种 特殊 纹理 ID 的 使 用 方法 之 后 ， 接 
下 来 再 看 一 下 具体 的 旋转 角度 问题 ， 因 为 在 使 用 摄像 头 的 时 候 很 容易 在 
这 个 地 方 躁 到 坑 ， 比 如 手机 摄像 类 预览 的 时 候 会 出 现 倒 立 、 镜 像 等 问 
题 ， 下 面 束 来 彻底 地 解决 这 类 问题 。 


摄像 头 采 集 出 来 的 视频 都 是 横 屏 的 ， 比 如 开发 者 为 摄像 头 设置 的 预 
览 大 小 是 640x480， 实 际 上 摄像 头 采 集 出 来 的 视频 帧 宽 是 640， 高 是 
480， 并 且 图 片 也 是 横向 采集 的 。 正 常 来 讲 ， 用 户 使 用 手机 时 都 是 竖 直 
方向 的 ， 所 以 需要 旋转 90 度 或 者 270 度 用 户 才 可 以 正确 地 看 到 自己 的 预 
览 效 果 。 而 具体 旋转 多 大 角度 需要 在 当前 这 颗 摄 像 头 的 CameraInfo 中 获 
得 ， 不 同 的 手机 甚至 是 不 同 的 系统 都 会 不 一 样 。 并 且 如 果 是 前 置 摄像 头 
的 话 ， 还 需要 再 做 一 个 VFlip〈 假 设 图 像 是 横 癌 采集 出 来 的 所 以 要 做 竖 
直 翻 转 ， 如 果 是 已 经 旋转 过 了 的 就 要 做 横 辣 翻转 ) 用 于 修复 镜像 的 问 
题 ， 下 面 就 用 实际 的 图 片 来 分 别 看 一 下 前 置 摄像 头 和 后 置 摄像 头 的 具体 


ve y VA 不 号 
演 染 流程 。 


首先 我 们 来 看 一 张 摄 像 尖 要 实际 玉 集 的 物体 ， 如 图 6-4 所 示 。 
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图 6-4 


在 使 用 手机 的 摄像 头 去 采集 这 个 物体 时 ， 如 果 是 前 置 摄像 头 ， 那 么 
采集 得 到 的 图 片 将 如 图 6-5 最 左边 的 图 片 所 示 《摄像 头 的 CameraInfo 中 取 
出 来 的 角度 是 270 度 ) ， 对 此 ， 应 该 按照 摄像 头 的 旋转 角度 将 图 片 顺 时 
针 旋 转 〈 注 意 这 里 一 定 是 顺 时 针 ) ， 旋 转 270 度 之 后 将 得 到 如 图 6-5 中 间 
的 图 片 ， 最 后 再 进行 镜像 处 理 ， 得 到 如 图 6-5 最 右边 的 图 片 ， 最 终 用 户 
在 手机 屏幕 中 看 到 的 预览 才 是 预期 的 图 像 。 
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前 兽 摄 像 头 采集 出 来 图 像 旋转 过 后 镜像 的 图 像 显示 在 屏幕 的 图 像 
图 6-5 

如 果 是 后 置 摄 像 头 ， 那 么 一 般 情况 下 从 摄像 头 的 CameraInfo 中 取出 

来 的 角度 是 90 度 ， 当 然 这 一 点 会 根据 ROM 厂 商 来 决定 ， 比 如 LG 厂商 的 





Nexus ”5X 设备 取 出 来 的 角度 就 是 270 度 ， 不 论 是 多 少 度 ， 摄 像 头 采集 出 
来 的 图 像 在 旋转 过 该 角度 之 后 肯定 会 是 一 个 正常 的 图 像 ， 旋 转 流 程 如 图 








6-6 所 示 。 
可 1 全 
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后 兽 摄 像 头 采集 出 来 图 像 显示 在 屏幕 的 图 像 


图 6-6 


如 果 是 LG 厂 商 的 Nexus 5X 或 者 HUAWEI 厂 商 的 Nexus 6P 这 两 款 设 
备 系统 升级 之 后 ， 我 们 对 图 像 后 置 摄像 头 的 处 理 将 如 图 6-7 所 示 。 
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后 兽 摄 像 头 采 集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-7 
那么 接 下 来 就 讲解 一 下 图 像 的 旋转 和 镜像 。 在 OpenGL ES 中 这 个 问 
题 其 实 就 是 如 何 来 确定 物体 的 坐标 和 纹理 坐标 ， 尽 管 在 第 4 章 中 已 经 讲 
解 过 这 部 分 内 容 ， 而 在 这 里 由 于 既 要 做 旋转 又 要 做 镜像 操作 ， 所 以 需要 
先 回顾 一 下 物体 的 坐标 系 ， 如 图 6-8 所 示 。 


通过 如 下 数组 来 规定 物体 坐标 : 








GLfloat squareVertices[8] = { 
-1.0, -1.0, // 








物体 左下 角 
1.0，-1.0 // 物体 右 下 角 
1.0, 1.0 // 物体 左上 角 
1.0, 1.0 // 物体 右上 角 


下 面 再 回顾 一 下 OpenGL 的 纹理 坐标 系 ， 如 图 6-9 所 示 。 


(—1.0, 1.0) (1.0, 1.0) 


(0.0, 0.0) 


(—1.0,—1.0) x (1.0, 一 1.0) 
OpenGL 物 体 坐 标 


图 6-8 
(0, 1) 和 网 局 





(00) ss ,0) 
OpenGL 二 维 纹理 坐标 
图 6-9 
然后 给 出 不 做 任何 旋转 的 纹理 坐标 : 





GLfloat textureCoordNoRotation[8] = { 


























// 图 像 的 右上 角 





}; 





再 给 出 顺 时 针 旋 转 90 度 的 纹理 坐标 ， 大 家 可 以 想象 一 下 ， 将 图 6-9 
顺 时 针 旋 转 90 度 ， 然 后 再 把 对 应 的 左下 、 右 下 、 左 上 、 右 上 的 坐标 点 写 
下 来 ， 如 下 所 示 : 








GLfloat textureCoords[8] = 
// 
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/ 
图 像 的 右上 
// 图 像 的 左下 
图 像 的 左上 角 






























































}; 





现在 ， 再 给 出 顺 时 针 旋 转 180 度 的 纹理 坐标 : 














GLfloat textureCoords[8] = { 
// 区 
























































1.0，1.0， 像 的 右上 
0.0, 1.0 // 图 像 的 左上 1 
1.0, 0.0, // 图 像 的 右 

0.0, 0.0 // 图 像 的 左 F 朋 











}; 





之 后 给 出 顺 时 针 旋 转 270 度 的 纹理 坐标 : 


















































GLfloat textureCoords[8] = { 
0.0, 1.0 // 图 像 的 左上 1 
0.0, 0.0 pa di 
1.0, 1.0 // 图 像 的 右上 
1.0, 0.0 // 图 像 的 右 FE 朋 



































还 记得 第 4 草 中 讲 过 的 计算 机 图 像 的 坐标 系 写 OpenGL 的 坐标 系 有 什 
么 不 同 吗 ? 它们 的 y 轴 坐标 恰好 是 相反 的 ， 所 以 这 里 要 对 每 一 个 纹理 坐 
标 做 一 个 VFlip 的 变换 《 即 把 每 一 个 顶点 的 y 值 由 0 变 为 1 或 者 由 1 变 为 
0) ， 这 样 融 可 以 得 到 一 个 正确 的 图 像 旋转 了 。 而 前 置 摄像 头 还 存在 镜 
像 的 问题 ， 因 此 需要 对 每 一 个 纹理 坐标 做 一 个 HFlip 的 变换 《〈 即 把 每 一 
个 顶点 的 x 值 由 0 变 为 1 或 者 由 1 变 为 0) ， 从 而 让 图 片 在 预览 界面 中 看 起 
来 就 像 在 镜子 中 的 一 样 。 


上 面 的 步骤 其 实 就 是 将 一 个 特殊 格式 〈OES ) 的 纹理 ID 经 过 处 理 和 
旋转 ， 使 其 变 成 正常 格式 (RGBA) ， 那 么 接 下 来 就 可 以 把 该 纹理 ID 泻 





染 到 屏幕 上 去 了 ， 但 是 在 这 里 还 要 再 鹃 唆 一 句 ， 因 为 该 纹理 ID 的 宽 和 高 
其 实 就 是 摄像 头 捕捉 过 来 的 高 和 宽 〈 因 为 我 们 做 了 一 个 90 度 或 者 270 度 
的 旋转 ) ， 目 标 是 要 将 其 演 染 到 SurfaceView 上 面 去 ， 但 是 如 果 Java 层 为 
我 们 提供 的 SurfaceView 的 宽 高 和 处 理 过 后 的 该 纹理 ID 的 宽 高 不 一 致 ， 
那么 这 一 帧 图 像 束 会 出 现 压 缩 或 者 拉 伸 的 问题 ， 所 以 在 泻 染 到 屏幕 上 的 
时 候 需 要 进行 一 个 自 适 配 ， 让 纹理 按照 屏幕 比例 自动 填充 。 


首先 来 看 一 下 前 面 的 纹理 坐标 ，x 从 0.0 到 1.0 就 说 明 要 把 纹理 的 x 轴 
方向 全 都 绘制 到 物体 表面 (整个 SurfaceView) 上 去 ， 而 如 果 我 们 只 想 
绘制 一 部 分 ， 比 如 中 间 的 一 半 ， 那 么 就 可 以 将 x 轴 的 坐标 写成 0.25 到 
0.75， 相 同 的 原则 一 样 被 应 用 到 y 轴 上 。 那 么 这 个 0.25 和 0.75 是 如 何 出 来 
的 昵 ? 答案 很 简单 ， 要 想 不 被 拉 伸 ， 那 么 SurfaceView 的 宽 高 比例 和 纹 
理 的 宽 高 比例 就 应 该 是 相同 的 。 假 设 这 一 张 纹 理 的 宽 为 texWidth， 纹 理 
的 高 为 texHeight 以 及 物体 的 宽 为 ScreenWidth， 物 体 的 高 为 
ScreenHeight， 且 无 论 是 宽 还 是 高 ， 都 是 float 类 型 的 ， 那 么 就 可 以 利用 下 
面 的 公式 来 完成 自动 填充 的 坐标 计算 : 

















float textureAspectRatio = texHeight / texwidth; 
float viewAspectRatio = screenHeight / screenwidth; 
float xoffset = 0.0f，; 
float yoffset = 0,.0f， 
if(textureAspectRatio > ViewAspectRatio){ 
// Update Y Offset 
int expectedHeight = texHeight*screenwidth/texwidth+0.sf; 
yoffset = (expectedHeight - screenHeight) / (2 * expectedHeight); 
} else if(textureAspectRatio < viewAspectRatio){ 
// Update X Offset 
int expectedwidth = texHeight * screenWidth / screenHeight + 0.5); 
xoffset = (texwWidth - expectedwidth)/(2*texwidth); 


} 





计算 得 到 的 xOffset 与 yOffset 分 别 用 于 在 纹理 坐标 中 蔡 换 掉 0.0 的 位 
置 ， 利 用 1.0-xOffset 以 及 1.0-yOffset 来 蔡 换 挥 1.0 的 位 置 ， 最 终 将 得 到 一 
个 纹理 坐标 矩阵 如 下 : 





GLfloat textureCoordNoRotation[8] = { 


xoffset, yoffset, 
1.0 - xOoffset, yoffset, 
xoffset, 1.0 - yoffset, 
1.0 - yoffset, 1.0 - yoffset 





至 此 ， 摄 像 尖 预 宽 流 程 束 可 以 随 着 摄像 涉 所 采集 的 各 帧 图 像 正 第 地 


绘制 下 去 了 ， 从 而 实现 整个 预览 的 过 程 。 


当 用 户 切 换 摄 像 头 的 时 候 ， 可 以 同 Native 层 发 送 一 个 指令 ，Native 
层 会 在 演 染 线程 中 关闭 当前 摄像 头 ， 然 后 重新 打开 另外 一 个 摄像 头 ， 并 
配置 参数 ， 以 及 设置 预览 的 Surface-Texture， 最 后 调用 开始 预览 方法 ， 

这 样 就 可 以 切换 成 功 ， 用 户 看 到 的 惑 是 摄像 头 切 换 之 后 的 预览 画面 了 。 


当 我 们 最 终 关 闭 预 览 时 ， 首 先 要 停止 整个 演 染 线程 ， 然 后 释放 掉 所 
建立 的 Surface-Texture， 之 后 再 将 摄像 头 的 PreviewCallback 设 置 为 null， 
最 终 关 闭 并 且 释 放 援 像 头 。 整 个 流程 代码 如 下 : 








if (mCameraSurfaceTexture != null) { 
mCameraSurfaceTexture.release( ); 
mCameraSurfaceTexture = null; 

} 

if (null != mCamera) 
mCamera.setPpreviewCallback (null); 
mCamera.release( ); 
mCamera = null; 


} 








至此， 摄像 头 预览 部 分 已 经 全 部 讲解 完毕 ， 这 是 十 分 重要 的 ， 对 于 
后 面 搭 建 整个 录制 视频 的 项 目 以 及 后 续 视 频 直 播 的 项 目 来 次 ， 这 都 是 最 
基础 的 部 分 ， 所 以 请 读者 好 好 见 悉 这 一 部 分 。 


本 节 的 代码 实例 在 代码 仓库 中 的 CameraPreview 项 目 中 ， 运 行 项 目 
之 后 进入 摄像 头 预 览 界面 ， 可 以 看 到 摄像 头 的 预览 ， 点 击 右上 角 的 切换 
摄像 头 按钮 可 以 进行 摄像 头 的 切换 操作 。 








6.2.2 ”iOS 平台 的 视频 画面 采集 


在 iOS 平 台 上 使 用 Camera 来 采集 画面 要 比 在 Android 平 台 上 简单 得 
多 ， 毕 葛 这 里 仅 用 一 种 语言 就 可 以 实现 ， 不 必 像 Android 平 台 那 样 需 要 
在 Java 层 和 Native 层 之 间 进 行 频繁 的 切换 ， 但 是 要 想 设 计 出 一 个 优秀 的 
可 扩展 的 架构 也 不 是 一 件 容易 的 事情 。 本 节 中 笔者 会 带领 大 家 设计 并 实 
现 一 个 基于 摄像 头 采 集 ， 最 终 用 OpenGL ES 演 染 到 UIView 上 ， 并 且 可 以 
支持 后 期 视频 特效 处 理 ， 以 及 编码 视频 帧 的 架构 。 首 先 来 看 一 下 整体 架 
构图 ， 如 图 6-10 所 示 。 
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图 6-10 


图 6-10 中 所 描述 的 是 ， 首 先 利 用 系统 的 Camera 采 集 出 YUV 的 图 像 ， 
然后 泻 染 到 一 个 纹理 对 象 上 ， 为 了 方便 扩展 ， 将 该 纹理 对 象 作为 Filter 的 
输入 纹理 对 象 ， 调 用 Filter 进 行 图 像 处 理 〈 使 用 OpenGL ES 来 处 理 ) ， 访 
Filter 还 会 有 一 个 输出 纹理 对 象 ， 可 将 该 输出 纹理 对 象 作为 下 一 级 组 件 
GLImageView 或 者 将 来 扩展 出 来 的 组 件 VideoEncoder 的 输入 纹理 对 象 ， 
而 这 两 个 组 件 将 分 别 用 于 进行 屏幕 泻 染 和 编码 操作 。 这 样 就 可 以 实现 预 
览 的 场景 ， 并 且 还 可 以 满足 我 们 将 来 要 做 编码 以 及 做 图 像 处 理 的 需求 。 


接 下 来 分 析 一 下 该 架构 。 


要 知道 ， 每 个 节点 的 处 理 都 是 一 个 OpenGEL 的 泻 染 过 程 ， 所 以 为 每 
个 节点 建立 一 个 Program 是 必 不 可 少 的 ， 我 们 不 可 能 在 每 个 节点 中 都 去 
编写 编译 Shader、 链 接 Program 等 基本 操作 ， 所 以 要 先 抽取 出 一 个 类 
ELImageProgram (EL 是 整个 项 目的 前 级 ) ， 用 于 把 OpenGL 的 
Program 的 构建 、 碍 找 属 性 、 使 用 等 这 些 操作 以 面向 对 象 的 形式 封装 起 
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来 ， 每 个 节点 都 会 有 一 个 该 类 的 引用 实例 。 


观察 每 个 市 点 的 输入 ， 会 发 现 它 们 都 是 一 个 纹理 对 象 ( 实 际 上 是 一 
个 纹理 ID〉， 实 际 痊 染 到 一 个 目标 纹理 对 象 的 时 候 ， 还 需要 建立 一 个 帧 
绥 存 对 象 ， 并 且 还 要 将 该 目标 纹理 对 象 Attach 到 这 个 帧 缓存 对 象 上 ， 上 所 
以 这 里 建立 一 个 类 ELImageTextureFrame， 用 于 将 纹理 对 象 和 帧 缓存 对 
象 的 创建 、 绑 定 、 销 毁 等 操作 以 面 癌 对 象 的 方式 封装 起 来 ， 使 得 每 个 节 
点 的 使 用 都 更 加 方便 。 


要 想 使 用 OpenGL ES， 必 须要 有 上 下 文 以 及 关联 的 线程 ， 之 前 也 提 
到 过 iOS 平 台 为 OpenGL ES 提供 了 EAGL 作 为 OpenGL ES 的 上 下 文 。 在 整 
个 架构 的 所 有 组 件 中 ， 要 针对 编码 器 组 件 单独 开辟 一 个 线程 ， 因 为 我 们 
不 希望 它 阻 塞 预览 线程 ， 从 而 影响 预览 的 流畅 效果 ， 所 以 它 也 需要 一 个 
单独 的 OpenGL 上 下 文 ， 并且 需 要 和 泻 染 线程 共享 OpenGL 上 下 文 (两 个 
OpenGL ES 线程 共享 上 下 文 或 者 共享 一 个 组 ， 则 代表 可 以 互相 使 用 对 方 
的 纹理 对 象 以 及 帧 绥 存 对 象 )， 只 有 这 样 ， 在 编码 线程 中 才 可 以 正确 访 
问 到 预览 线程 中 的 纹理 对 象 、 帧 缓存 对 象 。 


继续 观察 图 6-8， 会 发 现 Camera 和 Filter 这 些 节点 是 可 以 输出 纹理 对 
象 的 ， 也 就 是 它们 的 目标 纹理 对 象 要 作为 后 一 级 节点 的 输入 纹理 对 象 ， 
另外 观察 架构 图 还 会 发 现 ，Filter、GLImageView 以 及 VideoEncoder 需 要 
上 一 级 节点 提供 输入 的 纹理 对 象 。 友 现 了 这 两 个 特点 之 后 ， 我 们 就 可 以 
抽象 出 以 下 两 个 规则 。 

















规则 一 : 几 是 需要 输入 纹理 对 象 的 市 上 都 是 Input 类 型 。 
-规则 二 : 凡是 需要 同 后 级 节点 输出 纹理 对 象 的 市 扩 痢 是 Output 类 


基于 规则 一 ， 我 们 可 以 定义 ELImageInput 这 样 一 个 Protocol， 由 于 
需要 列 的 组 件 为 它 提 供 输入 所 需 的 纹理 对 象 ， 所 以 该 Protocol 里 面 定义 
了 两 个 方法 ， 第 一 个 方法 是 设置 输入 纹理 对 象 : 





- (void)setInputTexture:(ELImageTextureFrame *)textureFrame; 





节点 中 的 Filter、 GLImageView 以 及 VideoEncoder 都 属于 
ELImageInput 的 类 型 ， 所 以 应 该 实现 该 方法 ， 在 该 方法 的 实现 中 应 该 将 





输入 纹理 对 象 保存 为 一 个 全 局 变量 。 


此 外 ， 这 些 节点 还 有 一 个 共同 点 ， 那 就 是 都 需要 进行 泻 染 操作 ， 所 
以 接 下 来 第 二 个 方法 是 执行 演 染 操作 : 











- (void)newFrameReadyAtTime: (CMTime)frameTime timimgInfo : 
(CMSampleTimingInfo)timimgInfo; 





这 是 上 一 级 节点 (实际 上 是 一 个 Output 节 点 ) 处 理 完毕 之 后 会 调用 
的 方法 ， 在 这 个 方法 的 实现 中 可 完成 泻 染 操作 。 


基于 规则 三 ， 再 来 建立 新 类 ELImageOutput， 其 中 Camera、Filter 节 
点 需要 继承 自 该 类 ， 该 类 描述 为 凡是 继承 自 它 的 闻 点 都 可 以 同 自 己 的 后 
级 节点 输出 目标 纹理 对 象 ， 所 以 我 们 首先 建立 两 个 属性 ， 一 个 是 后 级 市 
点 列表 ; 男 一 个 是 目标 纹理 对 象 。 代 码 如 下 : 











ELImageTextureFrame *outputTexture; 
NSMutableArray *targets; 














为 什么 后 级 节点 是 列表 类 型 ? 因为 后 级 节点 有 可 能 包含 了 多 个 目标 
对 象 ， 像 Filter 节 点 ， 既 要 输出 给 GLImageView 又 要 输出 给 
VideoEncoder， 而 这 个 targets 里 面 的 对 象 又 是 什么 呢 ? 实际 上 了 吏 是 之 前 
定义 的 协议 ELImageInput 类 型 的 对 象 ， 这 是 因为 Output 节 点 的 后 级 节点 
。 另 外 该 类 还 得 提供 增加 和 删除 目标 节点 的 方 
法 : 





- (void)addTarget:(id<ELImageInput>)target,; 
- (void)removeTarget:(id<ELImageInput>)target; 





这 两 个 方法 可 用 于 操作 targets 属 性 ， 在 每 一 个 真正 继承 
ELImageInput 类 的 节点 执行 演 染 过 程 结束 之 后 ， 都 会 表 历 targets 中 所 有 
的 目标 节点 〈 即 ELImageInput) 执行 设置 输出 纹理 对 象 方法 ， 并 执行 下 
一 个 节点 的 泻 染 过 程 。 代 码 如 下 : 





// Do Render Work 
for (id<ELImageInput> currentTarget in targets)t{ 
[currentTarget setIinputTexture:outputTextureFrame]; 
[currentTarget newFrameReadyAtTime:frameTime timimgInfo:timimgInfo]; 





基于 上 面 的 分 析 ， 我 们 可 以 画 出 节点 的 类 图 关系 ， 如 图 6-11 所 示 。 
图 中 的 类 ELImage-Context 是 需要 重点 讲解 的 一 个 地 方 ， 由 于 OpenGL ES 
泻 染 操 作 必 须 执行 在 绑 定 了 OpenGL 上 下 文 的 线程 中 ， 而 且 由 于 其 对 于 
客户 端 代 码 的 调用 ， 需 要 在 调用 线程 和 OpenGL ES 的 线程 之 间 进 行 频繁 
的 切换 ， 所 以 在 该 类 中 提供 一 个 静态 方法 可 以 获得 具有 OpenGL 上 下 文 
的 泻 染 线 程 ， 让 一 些 OpenGL ES 泻 染 操作 可 以 在 该 线程 中 直接 执行 ， 具 
体 的 代码 如 下 : 














+ (void)useImageProcessingContext; 
[[ELImageContext sharedIimageProcessingContext] useAsCurrentContext]; 
- (void)useAsCurrentContext; 


EAGLContext *imageProcessingContext = [self context]; 
if ([EAGLContext currentContext] != imageProcessingContext) 


[EAGLContext setCurrentContext:imageProcessingContext]; 


} 
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由 于 GLImageView 在 前 面 的 半 市 中 已 经 实现 过 了 ， 这 里 就 不 再 玖 
述 ， 读 者 可 以 直接 到 实例 中 查看 源码 ， 本 节 中 只 会 实现 Camera，6.4.3 节 
将 会 实现 VideoEncoder， 将 在 第 9 章 中 再 去 实现 Filter。 那 么 接 下 来 就 来 
学 习 Camera 的 实现 ， 这 将 分 为 两 部 分 来 进行 讲解 ， 第 一 部 分 是 摄像 头 的 
配置 ， 第 二 部 分 是 摄像 头 采 集 到 的 YUV 数 据 应 该 如 何 构 转 换 为 纹理 对 
象 ， 以 便 可 以 输出 给 后 续 的 节点 进行 处 理 与 演 染 。 


1. 摄 像 头 配置 


既然 要 使 用 摄像 头 ， 就 要 使 用 AVCaptureSession， 因 为 在 iOS 平 台 
开发 中 只 要 是 与 硬件 相关 的 都 要 从 会 话 开 始 进行 配置 : 




















AVCaptureSession* captureSession,; 
captureSession = [[AVCaptureSession alloc] init]; 











然后 需要 配置 AVCaptureDeviceInput， 其 实 该 变量 就 是 用 于 指定 需 
要 使 用 哪 一 个 摄像 头 ， 比 如 ， 以 下 是 使 用 前 置 摄像 头 的 代码 : 





AVCaptureDevice * captureDevice = nil; 
NSArray *devices = [AVCaptureDevice deviceswithMediaType:AVMediaTypeVideo]; 
for (AVCaptureDevice *device in devices) { 
If ([device position] == AVCaptureDevicePositionFront) { 
captureDevice = device; 


captureInput = [[AVCaptureDeviceInput alloc] initwithDevice: 
captureDevice error:nil]; 





接着 需要 配置 AVCaptureVideoDataOutput， 其 实 该 变量 是 用 于 配置 
如 何 接收 摄像 头 采集 的 数据 的 : 





dispatch_queue_t dataCallbackQueue 

datacallbackQueue = dispatch queue create("datacallbackQueue", 
DISPATCH_QUEUE_SERIAL ); 

captureoutput = [[AVCaptureVideoDataOutput alloc] init]; 

[_captureOutput setSampleBufferDelegate:self queue:dataCcallbackQueue]; 





如 上 述 代码 所 示 ， 在 构建 出 captureOutput 实 例 之 后 ， 要 想 获取 摄像 
头 采 集 的 数据 ， 就 需要 传 入 类 型 为 
AVCaptureVideoDataOutputSampleBufferDelegate 的 实例 和 一 个 
dispatch_queue， 上 所 以 这 里 分 配 了 线程 队列 以 及 实现 该 类 本 喘 所 要 求 的 


Delgate， 然 后 配置 给 captureOutput 实 例 对 象 。 接 下 来 需要 设置 像素 格 
式 ， 摄 像 头 默认 使 用 的 表示 格式 为 YUVFullRange 类 型 ，FullRange 表 示 
YUV 的 取 值 范围 是 从 0 一 255， 而 另外 一 种 类 型 YUVVideoRange 则 是 为 
了 防止 溢出 ， 将 YUV 的 取 值 范围 设置 为 从 16 一 235。 不 同 的 Range 对 于 
后 续 将 YUV 格 式 转换 为 RGBA 格 式 的 时 候 所 使 用 的 矩阵 《转换 公式 ) 是 
不 同 的 ， 所 以 这 里 需要 根据 所 支持 的 格式 来 对 摄像 头 进行 设置 ， 并 且 记 
录 下 来 以 供 后 面 确定 RGBA 的 转换 矩阵 所 用 。 


现在 ， 将 captureInput 实 例 和 captureOutput 实 例 配置 到 CaptureSession 





if ([self.captureSession canAddInput :seJlf,captureInput]) { 
[self.captureSession addInput:self.captureInput]; 


} 
if ([self.captureSession canAddoutput :seJlf.captureoutput]) { 
[self.captureSession addOutput:self.captureOutput]; 
} 





调用 captureSession 设 置 分 辩 率 的 方法 ， 和 常见 的 分 辩 紊 及 其 设置 代码 
如 下 : 





NSString* highResolution = AVCaptureSessionpreset1280x720; 

NSString* JowResolution = AVCaptureSessionpreset640x480; 

[_captureSession setSessionPreset: 
[NSString stringwithstring: highResolution]]; 





调用 CaptureSession 的 beginConfiguration 方 法 ， 配 置 整个 摄像 头 会 
话 。 最 后 取出 capture-Output 中 的 AVCaptureConnection 来 配置 摄像 头 输 
出 的 方向 ， 这 一 点 是 非常 重要 的 ， 如 果 不 配置 该 参数 ， 那 么 摄像 头 默认 
输出 的 就 是 横 同 的 图 片 ， 设 置 为 纵 癌 图 片 输出 的 代码 如 下 所 示 : 








conn.videoOrientation = AVCaptureVideoOrientationPortrait; 





当然 ， 也 可 以 为 CaptureInput 设 置 帧 紊 等 信息 ， 这 里 将 不 再 袭 述 ， 
大 家 可 以 参考 代码 仓库 中 的 源码 进行 设置 。 


2. 摄 像 头 永 集 数据 处 理 
上 文 已 经 为 本 类 实现 了 


AVCaptureVideoDataOutputSampleBufferDelegate 接 口 〈 协 议 ) ， 由 于 我 
们 要 获取 摄像 头 采 集 的 数据 ， 所 以 这 里 需 重 写 该 Protocol 里 面 约 定 的 方 
法 ， 也 就 是 摄像 头 用 来 输出 数据 的 方法 ， 签 名 如 下 : 





-(void) captureOutput: (AVCaptureOutput*)captureOutput 
didOoutputSampleBuffer: (CMSampleBufferRef)sampleBuffer 
fromConnection: (AVCaptureConnection*)connection 





上 述 方法 会 返回 具体 是 哪 一 个 captureOutput 以 及 connection， 但 是 最 
重要 的 还 是 CMSample-Buffer 类 型 的 sampleBuffer， 其 中 实际 存储 着 摄像 
头 采 集 到 的 图 像 ，CMSampleBuffer 结 构 体 由 以 下 三 个 部 分 组 成 。 


-CMTime: 代表 了 这 一 帧 图 像 的 时 间 。 
.CMVideoFormatDescription: 代表 了 对 于 这 一 帧 图 像 格式 的 描述 。 
-CVPixelBuffer: 代表 了 这 一 帧 图 像 的 具体 数据 。 


在 该 回调 函数 中 ， 需 要 把 摄像 头 采 集 到 的 YUV 数 据 转换 为 纹理 对 
象 ， 所 以 要 进行 OpenGL 的 泻 染 操 作 ， 前 文中 提 到 过 一 个 问题 ，iOS 平 台 
不 允许 App 进 入 后 台 的 时 候 还 进行 OpenGEL 的 演 染 操作 ， 如 果 App 依 然 进 
行 泻 染 操 作 的 话 ， 那 么 系统 就 会 强制 杀 掉 该 App。 通 用 的 处 理 方 式 就 是 
之 前 在 播放 器 中 也 用 到 过 的 方式 ， 即 为 App 注 册 
applicationWillResignActive 和 applicationDidBecomeActive 的 通知 ， 在 这 
两 个 方法 中 将 该 类 中 的 实例 变量 shouldEnableOpenGL 设 置 为 NO 和 
YES。 而 在 回调 函数 中 ， 处 理 代 码 如 下 : 

















-(void) captureOutput: 
(AVCaptureOutput*)captureOutput didOutputSampleBuffer: 
(CMSampleBufferRef)sampleBuffer fromConnection: 


(AVCaptureConnection*)connection 


If (self.shouldEnableOpenGL) { 
If (dispatch_semaphore wait(_frameRenderingSemaphore, 
DISPATCH_TIME_NOW) != 0) { 
return; 


CFRetain(sampleBuffer); 
runAsyncOonVideoProcessingQueue( 人 ^{ 
[self processVideoSampleBuffer:sampleBuffer]; 
CFRelease(sampleBuffer ) ， 
dispatch_semaphore_signal(_frameRenderingSemaphore); 


}); 





上 述 代码 中 ， 首 先 要 判断 该 应 用 程序 进入 后 台 的 布尔 型 变量 ， 如 果 
是 NO 则 不 执行 任何 操作 ;如 果 是 YES 则 需要 保证 上 一 次 泻 染 已 经 结束 
了 “通过 dispatch_semaphore 的 wait 来 确定 ) ， 人 否则 丢弃 当前 帧 ， 然 后 使 
用 CFRetain 锁 定 该 sampleBuffer， 因 为 真正 操作 sample-Buffer 的 地 方 是 在 
OpenGL ES 线程 中 ， 所 以 这 里 必须 先 将 其 保留 〈Retain) 住 ， 等 这 一 次 
OpenGL ES 的 泻 染 操作 执行 完毕 之 后 ， 再 使 用 CFRelease 释 放 挥 该 
sampleBuffer， 最 后 向 semaphore 发 送 一 个 signal 指 令 表 明 可 以 继续 处 理 下 
一 帧 视频 帧 。 那 么 剩 下 的 就 是 如 何 将 该 sampleBuffer 演 染 成 为 一 个 纹理 
对 象 ， 并 且 调 用 后 续 的 targets 进 行 泻 染 。 


首先 ， 取 出 该 sampleBuffer 中 的 真实 数据 ， 即 CVPixelBuffer 类 型 的 
实例 ， 然 后 拿 出 该 CVPixelBuffer 里 面 YUV 格 式 的 矩阵 Kkey， 该 矩阵 key 用 
于 判断 转换 格式 是 ITU601 格 式 还 是 ITU709 格 式 。ITU601 是 标清 电视 

(SDTV) 的 标准 ， 而 ITU709 是 超 清 电视 (HDTV ) 的 标准 ，YUV 转 换 
为 RGB 的 矩阵 是 根据 标清 标准 或 者 超 清 标准 ， 以 及 前 面 提 到 的 
YUVFullRange 和 YUVVideoRange 共 同 决 定 的 。 其 中 ITU601 标 准 分 为 
YUVFullRange 和 YUVVideoRange， 而 ITU709 标 准 不 区 分 Rang， 得 到 和 矩 
阵 之 后 ， 在 演 染 过 程 中 将 使 用 该 矩阵 来 做 YUV 格 式 到 RGB 格式 的 转 
换 ， 下 面 先 来 看 一 下 三 个 矩阵 : 











GLfloat colorConversion601iDefault[] = { 
1.164, 1.164, 1.164, 
0.0, -0.392, 2.017, 
1.596, -0.813, 0.0, 


}; 
GLfloat colorConversion601FullRangeDefault[] = { 
.0， 1.0, 0, 
0.0, -0.343, 1.765, 
1.4, -0.711, 0.0, 
}; 
GLfloat colorConversion709Default[] = { 
1.164, 1.164, 1.164, 
0.0, -0.213, 2.112, 
1.793, -0.533, 0.0, 





然后 调用 ELImageContext 为 当前 线程 设置 OpenGL 上下文 ， 由 于 
ELVideoCamera 类 继承 自 ELImageOutput， 所 以 要 根据 宽 高 分 配 出 一 个 
outputTexture， 并 且 绑 定 该 Texture 的 Frame-Buffer〈 代 表 该 泻 染 过 程 的 








目标 就 是 这 个 纹理 对 象 )。 在 演 染 之 前 ， 需 要 将 CVPixelBuffer 中 的 
YUV 数 据 关 联 到 两 个 纹理 ID 上 ， 如 果 是 在 其 [他 平台 上 ， 则 只 能 通过 
OpenGL ES 提供 的 glTexImage2D 将 内 存 中 的 数据 上 传 到 显卡 的 一 个 纹理 
ID 之 上 ， 但 是 这 种 内 存 和 显存 之 间 的 数据 交换 效率 是 很 低 的 ， 在 OS 平 
人 台 上 的 CoreVideo 这 个 framework 中 提供 了 
CVOpenGLESTextureCacheCreateTextureFromImage 方 法 ， 可 以 使 得 整个 
交换 过 程 更 加 高 效 ， 因 为 CVPixelBuffer 是 YUV 数 据 格式 的 ， 所 以 可 避 以 
分 配 以 下 两 个 纹理 对 象 : 





CVOpenGLESTextureRef luminanceTextureRef = NULL 
CVOpenGLESTextureRef chrominanceTextureRef = NULL; 





之 后 ， 必 须 锁 定 CVPixelBuffer， 因 为 CVPixelBuffer 这 个 API 在 官方 
文档 上 描述 的 是 像素 数据 存储 在 主 内 存 中 。 对 于 该 主 内 存 ， 笔 者 个 人 理 
解 应 该 不 是 普通 操作 的 内 存 ， 所 以 需要 在 使 用 该 内 存 区 域 之 前 先 锁定 该 
对 象 ， 在 使 用 完毕 之 后 进行 解锁 。 以 下 代码 可 锁定 该 PixelBuffer: 














CVPixelBufferLockBaseAddress(pixelBuffer, 0); 





将 其 中 的 Y 通 道 部 分 的 内 容 上 传 到 luminanceTexture 中 : 





CVOpenGLESTextureCacheCcreateTextureFromImage( 
kCFAllocatorDefault, coreVideoTextureCache, pixelBuffer, 
NULL, GL_TEXTURE_ 2D, GL_LUMINANCE, bufferwidth, 
bufferHeight, GL_LUMINANCE, GL_UNSIGNED_BYTE, 0, 
&luminanceTextureRef ) ， 





这 里 传 入 了 pixelBuffer 以 及 格式 GL_LUMINANCE， 还 需要 传 入 宽 
和 高 ， 这 样 该 API 内 部 就 知道 应 该 访问 pixelBuffer 的 哪 一 部 分 数据 了 ， 
当然 ， 还 必须 传 入 一 个 纹理 缓存 ， 并 从 该 纹理 缓存 中 读 取 出 所 创建 的 纹 
理 对 象 ， 创 建 该 纹理 缓存 的 代码 如 下 : 





CVOpenGLESTextureCacheCreate(kCFAllocatorDefault, NULL, context, NULL, 
&coreVideoTextureCache) 





只 有 传 入 OpenGL 上 下 文才 可 以 创建 出 该 纹理 缓存 ， 然 后 就 可 以 通 
过 CVOpenGLESTexture-GetName 方 法 来 获取 luminanceTextureRef 的 纹理 


ID 了 ， 使 用 该 纹理 ID 束 可 以 和 普通 纹理 对 象 一 样 进行 操作 了 。 以 下 代码 
可 将 UV 通道 部 分 上 传 到 chrominanceTextureRef 里 面 去 : 





CVOpenGLESTextureCacheCreateTextureFromImage( 
kCFAllocatorDefault, coreVideoTextureCache, pixelBuffer, 
NULL, GL_TEXTURE_ 2D, GL_LUMINANCE ALPHA, bufferwidth/2, 
bufferHeight/2, GL_LUMINANCE ALPHA, GL_UNSIGNED_BYTE, 1, 
&chrominanceTextureRef ) 





因为 U 和 V 各 占 width*height 的 四 分 之 一 个 像素 ， 即 每 四 个 像素 会 有 
a ee 
放 到 Luminance 部 分 ， 将 V 放 到 Alpha 部 分 ， 理 解 这 一 点 是 非常 重要 的 ， 
DR 











接 下 来 就 是 整个 演 染 过 程 了 ， 其 实在 演 染 过 程 中 有 两 点 是 需要 注意 
的 : 第 一 点 就 是 物体 坐标 和 纹理 坐标 的 确定 ; 第 二 点 就 是 在 
ee 如 何 将 YUV 转 换 为 RGBA 的 表示 格式 。 


首先 来 看 物体 坐标 和 纹理 坐标 的 确定 ， 物 体 坐 标 是 固定 的 ， 有 共 体 如 
下 : 





GLfloat squareVertices[8] = { 


















































-1.0, -1.0, // 物体 左下 f 
1.0, -1.0, // 物体 右 下 f 
-1.0, 1.0, // 物体 左上 角 
1.0 1.0 // 物体 右上 








而 纹理 坐标 就 比较 特殊 了 ， 首 先 有 一 点 〈 这 点 在 前 面 的 章节 中 已 经 
讲 过 很 多 次 了 ) ， 就 是 OpenGL 纹 理 坐 标 系 和 计算 机 坐标 系 不 同 ， 所 以 
默认 情况 下 ， 纹 理 坐 标 如 下 : 





GLfloat textureCoords[8] = { 


0 . .0， 
1.0, 1.0, 
0.0，0.0， 
1.0, 0.0 





进行 旋转 以 及 镜像 的 时 候 痢 是 根据 上 述 纹理 坐标 来 实施 的 。 图 6-12 
古 前 置 摄 像 尖 默认 为 我 们 显示 的 图 像 。 





多 呈 罚 思 间 


前 钾 报 像 头 采集 出 来 图 像 旋转 过 后 镜像 的 图 像 显示 在 屏幕 的 图 像 
图 6-12 


对 图 于 6-12， 需 要 先 按 照 顺 时 针 旋 转 90 度 ， 由 于 是 前 置 摄像 头 ， 所 
以 还 得 做 一 个 镜像 处 理 ， 其 纹理 坐标 具体 如 下 : 


GLfloat textureCoords[8] = { 
1.0, 0.0, 


1.0, 1.0, 
0.0, 0.0, 
0.0, 1.0 
}; 


如 果 是 后 置 摄像 头 ， 那 么 所 做 的 操作 如 图 6-13 所 示 。 





后 兽 摄 像 头 采集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-13 
纹理 坐标 如 下 所 示 : 


GLfloat textureCoords[8] = { 
1.0, 1.0, 


1.0, 0.0, 
0.0, 1.0, 


0.0, 0.0 
}; 


这 里 需要 特别 注意 就 是 ， 由 于 对 纹理 做 了 90 度 的 旋转 ， 所 以 目标 纹 
理 对 象 (output-Texture) 的 宽 和 高 就 是 CVPixelBuffer 的 高 和 宽 了 ， 这 里 
不 要 再 弄 错 。 


上 述 处 理 过 程 是 默认 摄像 头 给 出 的 图 像 处 理 过 程 ， 还 记得 前 面 我 们 
为 摄像 头 做 了 一 个 特殊 的 设置 吗 ? 即 为 AVCaptureConnection 设 置 
videoOrientation 参 数 ， 默 认 是 横 回 视频 输出 ， 当 将 该 参数 设置 为 Portrait 
时 ， 即 要 求 摄像 头 竖 直方 加 的 视频 输出 。 这 时 候 目标 纹理 对 象 
CoutputTexture ) 的 宽 和 高 就 是 CVPixelBuffer 的 宽 和 高 了 ， 后 置 摄像 头 
采集 出 来 的 图 像 操 作 如 图 6-14 上 所 示 。 





后 兽 摄 像 头 采 集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-14 
所 对 应 的 纹理 坐标 为 : 
GLfloat textureCoords[8] = { 

0.0, 1.0, 
1.0, 1.0, 
0.0，0.0， 
1.0, 0.0 


}; 


而 前 置 摄像 头 由 于 镜像 的 原因 ， 所 以 处 理 过 程 如 图 6-15 所 示 。 





及 一 ~ 令 


前 置 摄 像 头 采集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-15 
此 时 的 纹理 坐标 与 后 置 摄像 头 的 每 一 个 坐标 的 X 点 正好 相反 








GLfloat textureCoords[8] = { 





其 次 ， 来 看 一 下 如 何在 FragmentShader 中 将 YUV 转 换 为 RGBA 格 
式 。 可 能 有 读者 会 有 一 个 疑问 ， 为 什么 非 要 转换 为 RGBA 格 式 呢 ? 因 为 
在 OpenGEL 中 纹理 的 默认 格式 都 是 RGBA 格 式 的 ， 并 且 也 要 为 后 续 的 纹 
理 处 理 以 及 演 染 到 屏幕 上 打下 基础 ， 最 终 编码 髓 也 是 以 RGBA 格 式 为 基 
础 进行 转换 和 处 理 的 。 在 播放 器 的 章节 中 已 做 过 一 次 YUV 转 RGB 的 操 
作 ， 但 是 由 于 使 用 了 CoreVideo 这 个 framework 下 的 快速 上 传 ， 纹理 变 得 
不 一 样 了 ， 下 面 就 来 看 一 下 其 体 的 FragmentShader: 











varying highp vec2 textureCoordinate,; 
uniform sampler2D luminanceTexture; 
uniform sampler2D chrominanceTexture; 
uniform mediump mat3 colorConversionMatrix; 
void main(){ 
mediump vec3 yuv; 
lowp vec3 rgb; 
yuv.x = texture2D(JluminanceTexture, textureCoordinate).r; 
yuv.yz = texture2D(chrominanceTexture, textureCoordinate). 
ra - vec2(0.5, 0.5); 
rgb = colorConversionMatrix * yuv; 
gl1_FragColor = vec4(rgb, 1); 
} 


ee | 


其 中 ，textureCoordinate 就 是 纹理 坐标 ， 而 两 个 sampler2D 类 型 就 是 
我 们 千 辛 万 苦 从 CV-PixelBuffer 里 面 上 传 到 显存 中 的 纹理 对 象 ， 而 3x3 的 
矩阵 束 是 前 面 根 据 像素 格式 以 及 是 否 为 FullRange 选 择 的 变换 矩阵 。 在 前 
面 Y 使 用 的 是 GL_LUMINANCE 格 式 ， 所 以 这 里 是 使 用 texture2D 函 数 读 
取出 像素 点 ， 然 后 访问 像素 的 r 通 道 就 可 以 获得 Y 通 道 的 值 了 。 而 UV 通 
道 使 用 的 是 格式 GL_ LUMINANCE_ALPHA， 所 以 这 里 是 通过 texture2D 
函数 获取 像素 点 ， 然 后 访问 r 和 a 通 道 作 为 UV 的 值 ， 但 是 为 什么 UV 的 值 
要 减 去 0.5 呢 ?换算 为 0-255 就 是 减 去 127， 这 是 因为 UV 是 色彩 分 量 ， 当 
整 张 图 片 都 是 黑白 的 时 候 ，UV 分 量 是 默认 值 127， 所 以 这 里 需要 先 减 去 
127， 然 后 再 转换 为 RGB， 和 否则 会 出 现 色 彩 不 匹配 的 错误 。 最 终 可 以 使 
用 传递 进来 的 转换 矩阵 乘 以 YUV 得 到 该 像素 点 的 RGBA 表 示 格 式 。 


























6.3 ”音频 的 编 伍 


本 节 将 讨论 音频 的 编码 ， 第 1 章 中 已 经 分 析 过 音频 编码 的 原理 与 发 
展 历 史 ， 本 章 将 以 实践 为 主 ， 利 用 编码 器 完成 编码 场景 下 的 编码 需求 。 
MP3 格 式 是 兼容 性 最 好 的 格式 ， 而 AAC 在 低 码 率 (128Kbit/s 以 下 ) 场景 
下 ， 其 音频 品质 大 大 超过 MP3， 并 且 在 移动 平台 上 ， 无 论 是 单独 的 音频 
编码 ， 还 是 视频 编码 中 的 音频 流 部 分 ， 使 用 得 最 广泛 的 都 是 AAC 的 编码 
格式 。 本 节 将 通过 软件 编码 库 〈libfdk_aac 这 个 第 三 方 开源 库 ) 以 及 各 
个 平台 提供 的 硬件 编码 库 来 编码 AAC 码 流 。 对 于 一 些 其 他 的 编码 格式 ， 
比如 适用 于 VOIP 通话 的 Ogg 格 式 ， 适 用 于 语言 聊天 的 AMR 格 式 等 在 本 
节 中 不 会 涉及 ， 但 是 这 里 使 用 的 软件 编码 方式 是 以 FFmpeg 平 台 为 基础 
的 ， 所 以 后 期 无 论 想 用 其 他 的 什么 格式 ， 都 可 以 自行 配置 编码 库 来 实 
现 。 本 节 的 输入 就 是 6.1 闻 的 录音 右 采集 的 首 频 数据 (其 实 束 是 普通 的 
PCM 流 ) ， 当 然 读 者 也 可 以 自行 尝试 使 用 第 5 章 中 解码 器 模块 的 输出 作 
为 编码 器 的 输入 ， 其 实 这 就 是 一 个 后 处 理 (post-processing) 过 程 的 实 
践 ， 后 面 还 会 有 一 个 单独 的 项 目 来 完成 这 种 用 户 的 后 处 理 场景 。 





























6.3.1 libfdk aac 编 码 AAC 


软件 编码 AAC， 将 基于 FFmpeg 的 API 来 编写， 而 不 像 第 2 章 那样 直 
接 使 用 LAME 库 的 API 来 编码 MP3。 这 样 做 的 好 处 是 ， 只 需要 编写 一 份 
音频 编码 的 代码 即 可 ， 对 于 不 同 的 编码 器 ， 只 需要 调整 相应 的 编码 器 ID 
或 者 编码 器 Name， 就 可 以 编码 出 不 同 格式 的 音频 文件 。 当 然 ， 既 然 要 
使 用 第 三 方 库 libfdk_aac 编 码 AAC 文 件 ， 那 么 必须 在 做 交叉 编译 的 时 候 
将 libfdk_aac 库 编译 到 FFmpeg 中 去 。 可 编写 一 个 C++ 的 类 ， 命 名 为 
audio_encoder， 然 后 对 外 提供 三 个 接口 ， 分 别 是 初始 化 、 编 码 以 及 销 师 
方法 ， 并 且 要 求 该 类 可 以 同时 运行 在 Android 平 台 和 iOS 平 台 之 上 。 首 先 
来 看 一 下 初始 化 接口 : 

















int init(int bitRate, int channels, int samplerRate, int bitsPerSample, 
const char* aacFilePath, const char * codec_name ) ， 





对 于 其 中 的 传 入 参数 ， 说 明 如 下 。 


首先 是 比特 率 ， 也 就 是 最 终 编 码 出 来 的 文件 的 码 率 ， 接 大 是 声 道 
数 、 采 样 座 ， 这 两 个 将 不 再 费 述 ， 然 后 是 最 终 编 码 的 文件 路 径 ， 节 后 是 
编码 器 的 名 字 。 其 实现 步骤 具体 如 下 。 


首先 调用 方法 av_register_all () 将 所 有 的 封装 格式 以 及 编 解 码 器 注 
册 到 FFmpeg 框 架 中 ; 然后 调用 avformat_alloc_output_context2 方 法 传 入 
输出 文件 格式 ， 分 配 出 上 下 文 ， 即 分 配 出 封装 格式 ; 之 后 调用 
avio_open2 方 法 传 入 AAC 的 编码 路 径 ， 相 当 于 打开 文件 连接 通道 。 前 面 
分 析 过 FFmpeg 的 源码 ， 通 过 上 述 两 行 代码 可 以 确定 出 Muxer 与 
Protocol， 然 后 就 是 分 配 Codec 的 相关 内 容 了 ， 所 以 接 下 来 要 为 
AVFormatContext 上 下 文 填充 一 轨 AVStream: 











audioStream = avformat_new_stream(avFormatContext, NULL); 





现在 ， 要 为 audioStream 的 Codec 属 性 填充 内 容 了 。Codec 属 性 是 一 个 
AVCodecContext 的 结构 体 类 型 ， 需 要 为 该 结构 体 填 充 如 下 几 个 属性 ， 首 
先是 codec_type， 赋 值 为 AVMEDIA_TYPE_AUDIO， 代 表 其 是 音频 类 
型 ， 其 次 是 bit_rate、sample_rate、channels 等 基本 属性 ， 然 后 是 





channel_layout (其 表示 的 意义 与 channels 是 一 样 的 ， 只 不 过 可 选 值 是 两 
个 常量 ， 分 别 是 AV_CH_LAYOUT_MONO 代 表单 声 道 、 
AV_CH_LAYOUT_STEREO 代 表 立 体 声 ) ， 最 后 也 是 最 重要 的 
sample_fmt， 人 代表 了 如 何 数字 化 表示 采样 ， 使 用 的 是 
AV_SAMPLE_FMT_S16， 即 用 一 个 short 来 表示 一 个 采样 点 ， 这 样 就 把 
AVCodecContext 结 构 体 构造 完成 了 。 


下 面 要 准备 最 重要 的 编码 器 了， 通过 调用 
avcodec_ find_encoder_by_name 函 数 来 找 出 对 应 的 编码 器 ， 然 后 调用 方 
法 avcodec_open2 来 为 该 编码 器 上 下 文 打 开 这 个 编码 右 ， 接 下 来 为 编码 
器 指定 frame_size 的 大 小 ， 一 般 指 定 1024 作 为 一 帧 的 大 小 ， 至 此 我 们 就 
把 编码 器 部 分 给 分 配 好 了 。 


在 此 需要 注意 的 是 ， 某 些 编码 右 只 允许 特定 格式 的 PCM 作 为 输入 
源 ， 比 如 声 道 数 、 采 样 率 、 表 示 格 式 ( 比 如 LAME 编 码 器 就 不 允许 
SInt16 的 表示 格式 ) 的 要 求 ， 所 以 需要 构造 一 个 重 末 样 器 来 将 PCM 数 据 
转换 为 可 适 配 编 码 器 输入 的 PCM 数 据 ， 即 前 面 讲 解 过 的 需要 将 输入 的 声 
道 、 采 样 率 、 表 示 格 式 和 输出 的 声 道 、 采 样 紊 、 表 示 格 式 传递 给 初始 化 
方法 ， 然 后 分 配 出 重 采 样 上 下 文 SwrContext。 此 外 ， 还 要 分 配 一 个 
AVFrame 类 型 的 nputFrame， 作 为 客户 端 代 人 码 输入 的 PCM 数 据 存放 的 地 
方 ， 这 里 需要 知道 inputFrame 分 配 的 buffer 的 大 小 ， 如 上 一 步 所 述 ， 默 认 
一 帧 的 大 小 是 1024， 所 以 对 应 的 buffer (按照 uint8_t 类 型 作为 一 个 元 素 
来 分 配 〉 大 小 就 应 该 是 : 





























bufferSize = frame_size * sizeof(SINt16) * channels; 











当然 无 需 自己 进行 计算 ， 可 以 调用 FFmpeg 提 供 的 方法 
av_samples_get_buffer_size 来 帮助 开发 者 计算 。 其 实 这 个 方法 内 部 的 计 
算 公 式 就 是 上 面 所 列 的 公式 。 如 果 和 需要 进行 章 末 样 处 理 ， 那 就 需要 额外 
分 配 一 个 重 采 样 之 后 的 AVFrame 类 型 的 swrFrame， 作 为 最 终 得 到 结果 的 
AVFrame。 


在 初始 化 方法 的 最 后 ， 需 要 调用 FFmpeg 提 供 的 方法 
avformat_write_header 将 该 音频 文件 的 Header 部 分 写 进 去 ， 然 后 记录 一 
个 标志 isWriteHeaderSuccess， 使 其 为 tue， 因 为 后 续 在 销毁 资源 的 阶段 
需要 根据 该 标志 来 判断 是 否 调用 write _ trailer 方法 ， 即 写 入 文件 尾部 的 方 
法 ， 否 则 会 造成 Crash， 这 在 前 面 分 析 FFmpeg 源 码 的 时 候 束 已 经 讲解 过 











接 下 来 看 一 下 提供 的 第 二 个 接口 方法 : 





void encode(byte* buffer, int size); 





这 里 传 入 的 参数 是 uint8_t 类 型 的 指针 ， 以 及 这 块 内 存 所 表示 的 数据 
长 度 ， 具 体 的 实现 是 将 该 buffer 填 充 入 inputFrame， 由 于 前 面 已 经 知道 了 
每 一 帧 buffer 需 要 填充 的 大 小 是 多 少 ， 所 以 这 里 可 以 利用 一 个 while 循 环 
来 做 数据 的 缓冲 ， 一 次 性 填充 到 AVFrame 中 去 ， 人 然后 调用 编码 方法 
avcodec_encode_audio2， 访 方法 会 将 编码 好 的 数据 放 入 AVPacket 的 结构 
体 中 ， 紧 接着 就 可 以 将 该 AVPacket 类 型 的 结构 体 写 到 文件 中 去 了 ， 而 调 
用 av_interleaved_write_frame 方 法 ， 则 可 以 将 该 packet 输 出 到 最 终 的 文件 








最 后 ， 来 看 一 下 第 三 个 接口 方法 : 





void destroy(); 





上 述 代码 所 述 方法 需要 销毁 前 面 所 分 配 的 资源 以 及 打开 的 连接 通 
道 。 


如 采 初 始 化 了 重 采 样 器 ， 那 么 承销 毁 重 采样 的 数据 缓冲 区 以 及 重 采 
样 上 下 文 ; 然后 销毁 为 输入 PCM 数 据 分 配 的 AVFrame 类 型 的 
inputFrame， 再 判断 标志 isWriteHeaderSuccess 变 量 ， 决 定 是 否 需 要 填充 
duration 以 及 调用 方法 av_write_trailer， 最 终 关 闭 编码 器 以 及 连接 通道 。 


这 个 类 写 完 之 后 ， 就 可 以 集成 到 Android 和 iOS 平 台 了 ， 外 界 控制 层 
需要 初始 化 该 类 ， 然 后 负责 读 写 文件 调用 encode 方 法 ， 最 终 调 用 销毁 资 
源 的 方法 。 


本 节 的 代码 实例 ，Android 工 程 是 Android 代 码 仓库 中 的 
FDKAACAudioEncoder 工 程 ，iOS 工 程 是 i0S 的 代码 仓库 中 的 
FDKAACEncoder 工 程 ， 两 个 工程 都 是 将 PCM 文 件 编码 为 一 个 AAC 的 文 
件 。 运 行 Android 工 程 之 前 ， 需 要 将 resource 目 录 下 面 的 PCM 文 件 放 入 
| 目录 下 的 根 目录 下 面 ， 最 终 可 以 播放 编码 后 的 AAC 文 件 进行 试 
上 听 。 








6.3.2 ” Android 平台 的 硬件 编码 器 MediaCodec 


本 节 就 来 看 一 下 如 何 使 用 Android 平 台 提 供 的 MediaCodec 编 码 
AAC。 使 用 MediaCodec 编 码 AAC 对 Android 系 统 是 有 要 求 的 ， 必 须 是 4.1 
系统 以 上 ， 即 要 求 Android 的 版 本 代号 在 Jelly_Bean 以 上 。MediaCodec 是 
Android 系 统 提 供 的 人 硬件 编码 占 ， 它 可 以 利用 设备 的 硬件 来 完成 编码 ， 

从 而 大 大 提高 编码 的 效率 ， 还 可 以 降低 电量 的 使 用 ， 但 是 其 在 兼容 性 方 
面 不 如 软件 编码 好 ， 因 为 Android 设 备 的 碎片 化 太 严 重 ， 所 以 读者 可 以 
自己 衡量 在 应 用 中 是 否 使 用 Android 平 台 的 硬件 编码 特性 。 


第 3 章 中 讲解 过 AAC 编 码 格式 ， 其 中 有 一 种 是 ADTS 封 装 格 式 ， 男 
外 一 种 就 是 裸 的 AAC 的 封装 格式 。 不 论 这 里 所 说 的 是 MediaCodec 编 码 
出 来 的 AAC， 还 是 在 6.3.3 节 将 要 讲解 的 AudioToolbox 编 码 出 来 的 AAC， 
都 是 裸 的 AAC， 即 AAC 的 原始 数据 块 ， 一 个 AAC 原 始 数据 块 的 长 度 是 
可 变 的 ， 对 原始 帧 加 上 ADTS 头 进行 封装 ， 就 形成 了 ADTS 帧 。ADTS 的 
全 称 是 Audio Data Transport Stream， 是 AAC 音 频 的 传输 流 格式 ， 通 党 我 
们 将 得 到 的 AAC 原 始 帧 加 上 ADTS 头 进行 封装 后 写 入 文件 ， 该 文件 使 用 
常用 的 播放 器 即 可 播放 ， 这 是 个 验证 AAC 数 据 是 否 正 确 的 方法 。 进 行 封 
装 之 前 ， 需 要 了 解 相 关 的 参数 ， 如 采样 率 、 声 道 数 、 原 始 数据 块 的 长 度 
等 。 下 面 将 AAC 原 始 数据 帧 加 工 为 ADTS 格 式 的 帧 ， 根 据 相 关 参 数 填写 
组 成 7 字 节 的 ADTS 头 。 下 面 束 来 分 配 一 下 这 7 个 字 节 : 








int adtsLength = 7; 
char *packet = malloc(sizeof(char) * adtsLength); 





其 中 ， 前 两 个 字 节 是 ADTS 的 同步 字 : 


packet[0] = (char )0XxFF 
packet[1] = (char )0XxF9 











紧 接 着 第 三 个 字 节 是 编码 的 Profile、 采 样 率 下 标 〈 注 意 是 下 标 ， 而 
不 是 采样 率 ) 、 声 道 配置 〈 注 意 是 声 道 配置 ， 而 不 是 声 道 数 ) 、 数 据 长 
度 的 组 合 〈 注 意 packetLen 是 原始 数据 长 度 加 上 ADTS 头 的 长 度 ) : 





int profile = 2; // AAC LC 
int freqIdx = 4; // 44.1kHz 


int chancfg = 2; 


packet[2] = (byte) (((profile - 1) << 6) + (freqIdx << 2) + (chancfg >> 2)); 
packet[3] = (byte) (((chancfg & 3) << 6) + (packetLen >> 11)); 

packet[4] = (byte) ((packetLen & Ox7FF) >> 3); 

packet[5] = (byte) (((packetLen & 7) << 5) + QOx1F); 








其 中 具体 的 编码 Profile、 采 样 京 的 下 标 以 及 声 道 数 都 可 以 从 下 方 这 
个 链接 中 但 到 相关 的 所 有 表示 : 





https:// wiki.multimedia.cx/index.php?title=MPEG- 
4 Audio#Channel Configurations 











最 后 一 个 字 节 也 是 固定 的 : 





packet[6] = (byte) OxFC 





至 此 ，ADTS 头 就 拼接 上 了 ， 对 于 编码 出 一 个 可 以 播放 的 AAC 文 件 
来 讲 ， 这 是 非常 重要 的 ， 而 对 于 MediaCodec 以 及 6.3.3 节 将 要 讲 到 的 
AudioToolbox 编 码 出 来 的 AAC 来 说 ， 都 需要 拼接 上 该 ADTS 头 ， 最 终 文 
件 就 可 以 正确 地 播放 出 来 了 。 


下 面 就 来 看 看 MediaCodec 如 何 使 用 。 类 似 于 软件 编码 提供 的 三 个 接 
口 方法 ， 这 里 也 提供 三 个 接口 方法 ， 分 别 用 于 完成 初始 化 、 编 码 数据 和 
销 蝶 编码 器 的 操作 。 痢 先 来 看 一 下 初始 化 方法 ， 先 构造 一 个 MediaCodec 
实例 ， 通 过 该 类 的 静态 函数 来 实现 。 构 造 一 个 AAC 的 Codec， 其 代码 如 
下 : 





MediaCodec mediaCodec = MediaCodec.createEncoderByType("audio/mp4a-latm"); 





其 实 该 方法 有 点 类 似 于 前 面 所 讲 的 FFmpeg 中 根据 Codec 的 name 来 找 
出 编码 器 。 构 造 出 该 实例 之 后 ， 束 需要 配置 该 编码 器 了 ， 配 置 编码 右 最 
重要 的 是 需要 传递 一 个 MediaFormat 类 型 的 对 象 ， 该 对 象 中 配置 的 是 比 
特 率 、 采 样 率 、 声 道 数 以 及 编码 AAC 的 Profile， 此 外 ， 还 需要 配置 输入 
Buffer 的 最 大 值 ， 代 码 如 下 : 

















MediaFormat encodeFormat = MediaFormat.createAudioFormat (MINE_TYPE, sampleRa 
channels)，; 
encodeFormat ,setInteger(MediaFormat .KEY_BIT_RATE， bitRate); 


encodeFormat ,setInteger(MediaFormat ,KEY_AAC_PROFILE，Media 
CodecInfo.CodecProfileLevel.AACObjectLCc); 
encodeFormat ,setInteger(MediaFormat ,KEY_MAX_INPUT_SIZE，10 * 1024); 








与 FFmpeg 中 的 配置 编码 器 类 似 ， 上 述 代 人 码 也 配置 了 编码 右 要 求 的 
输入 ， 现 在 就 将 该 对 象 配置 到 编码 器 内 部 : 








mediaCodec.configure(encodeFormat, null, null, 
MediaCodec .CONFIGURE_FLAG_ ENCODE); 





最 后 一 个 参数 代表 需要 配置 一 个 编码 占 ， 而 非 解 码 嚣 (如果 是 解码 
恬 则 传递 为 0;〉。 调 用 start 方 法 ， 代 表 开 局 该 编码 器 。 


至 此 ， 编 码 器 已 经 完全 配置 好 了 ， 打 开 编 码 器 ， 现 在 开发 者 可 以 从 
MediaCodec 实 例 中 取出 两 个 buffer， 一 个 是 inputBuffer， 用 于 存放 输入 
的 PCM 数 据 〈 类 似 于 FFmpeg 编 码 的 AVFrame) ; 另外 一 个 是 
outputBuffer， 用 于 存放 编码 之 后 的 原始 AAC 的 数据 (类 似 于 FFmpeg 编 
码 的 AVPacket) ， 代 码 如 下 : 





ByteBuffer[] inputBuffers = mediacodec ,getInputBuffers() ， 
ByteBuffer[] outputBuffers = mediacodec ,getOoutputBuffers( ); 








到 此 ， 初 始 化 方法 已 实现 完毕 ， 下 面 来 看 一 下 编码 方法 ， 
MediaCodec 的 工作 原理 如 图 6-16 所 示 ， 图 6-16 左 边 的 Client 元 素 代 表 要 
将 PCM 放 到 inputBuffer 中 的 某 个 具体 的 buffer 中 去 ; 图 6-16 右 边 的 Client 
元 素 代表 要 将 编码 之 后 的 原始 AAC 数 据 从 outputBuffer 中 的 某 个 具体 的 
buffer 中 取出 来 ， 图 6-16 中 ， 左 边 的 小 方块 代表 各 个 inputBuffer 元 素 ， 碳 
边 的 小 方块 则 代表 各 个 outputBuffer 元 素 。 
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代码 实现 具体 如 下 。 


首先 ， 从 mediaCodec 中 读 取 出 一 个 可 以 用 来 输入 的 buffer 的 Index， 
然后 填充 数据 ， 并 且 把 填充 好 的 buffer 发 送 给 Codec: 





int bufferIndex = codec.dequeueInputBuffer(-1); 

If (inputBufferIndex >= 0) { 
ByteBuffer inputBuffer = inputBuffers[bufferIindex]; 
InputBuffer .clear() ; 
inputBuffer.put(data); 
long time = System.nanoTime( ); 
codec.queueInputBuffer(bufferIindex, 90, len, time, 0); 





然后 ， 从 Codec 中 读 取 出 一 个 编码 好 的 buffer 的 Index， 通 过 Index 读 
取出 对 应 的 output-Buffer， 然 后 将 数据 读 取出 来 ， 添 加 上 ADTS 头 部 ， 与 
文件 ， 之 后 再 把 该 outputBuffer 放 回 到 待 编 码 填 充 队 列 中 去 : 





BufferInfo info = new BufferInfo( ) ，; 
int index = codec.dequeueOutputBuffer(info, 0); 
while (index >= 0) { 
ByteBuffer outputBuffer = outputBuffers[index]; 
if (outputAACDelegate != null) { 
int outPacketSize = info.size + 7; 
outputBuffer.position(info.offset); 


outputBuffer.1imit(info.offset + info.size); 
byte[] outData = new byte[outPacketSize]' 

// 添加 ADTS 头 信息 
addADTStoPacket(outData，outPacketSize) ，; 

// 将 编码 得 到 的 AAC 数 据 取出 到 目标 数组 中 ， 其 中 7 代表 偏 移 量 
outputBuffer.get(outData, 7, info.size); 
outputBuffer.position(info.offset); 
outputAACDelegate.outputAACPacket (outData); 









































codec.releaseOutputBuffer(index, false); 
index = mediaCodec.dequeueOutputBuffer(bufferInfo, 0); 


} 





需要 注意 的 是 ， 上 述 代码 中 的 第 一 行 是 构造 出 一 个 BufferInfo 类 型 
的 对 象 ， 当 开 友 者 从 Codec 的 输出 缓冲 区 中 读 取 一 个 buffer 的 时 候 ， 
Codec 会 将 该 buffer 的 描述 信息 放 入 该 对 象 中 ， 后 续 会 按照 该 对 象 中 的 信 
县 来 处 理 实 际 的 内 容 。 


最 后 来 看 一 下 销毁 方法 ， 使 用 完了 MediaCodec 编 码 堪 之 后 ， 就 需要 
停止 运行 并 释放 编码 器 ， 代 码 如 下 : 











if (null != mediaCodec) { 
mediaCodec.stop(); 
mediaCodec.release( ); 


} 





外 界 调用 端 需 要 做 的 事情 是 先 初 始 化 该 类 ， 然 后 读 取 PCM 文 件 并 调 
用 该 类 的 编码 方法 ， 0 在 重 写 的 方法 中 将 输出 
带 有 ADTS 头 的 AAC 码 流 直 接 写 文件 ， 最 终 编码 结束 之 后 ， 调 用 该 类 的 
停止 编码 方法 。 


本 节 的 代码 实例 是 代码 仓库 中 的 MediaCodecAudioEncoder 工 程 ， 运 
行 之 前 ， 需 要 将 resource 目 录 下 的 PCM 文 件 放 入 SDCard 目 录 下 的 根 目录 
下 面 ， 编码 吉 束 之 后 ， 可 以 在 对 应 的 目录 下 获取 AAC 文 件 并 播放 试听 。 





6.3.3 iOS 平台 的 人 硬件 编码 絮 AudioToolbox 


本 节 将 讲解 iOS 平 台 下 的 人 硬件 编码 占 ， 可 使 用 AudioToolbox 下 的 
Audio Converter Services 来 完成 便 件 编码 ，iOS 平 台 提 供 的 该 服务 从 名 字 
上 来 看 就 是 一 个 转换 服务 ， 那 么 它 能 够 提供 哪 几 个 方面 的 转换 呢 ? 


PCM 到 PCM， 转 换 位 深度 、 采 样 率 以 及 表示 格式 ， 也 包括 交错 存 
储 还 是 平 铺 存储 ， 这 些 与 前 面 讲解 的 FFmpeg 里 的 重 采 样 器 非常 类 似 ; 
最 重要 的 是 还 可 以 做 PCM 到 压缩 格式 的 转换 ， 所 谓 转换 ， 在 这 种 场景 下 
其 实 就 是 可 以 做 编码 或 者 解码 操作 。 可 见 iOS 平 台 在 多 媒体 方面 提供 的 
API 是 多 么 的 强大 ， 并 且 其 兼容 性 也 非常 好 ， 随 着 学 习 的 深入 ， 大 家 会 
逐渐 了 解 到 更 多 更 方便 的 API， 而 本 节 就 是 利用 它 所 提供 的 编码 服务 ， 
将 PCM 数 据 编码 为 AAC 格 式 的 数据 。 


AudioToolbox 中 编码 出 来 的 AAC 数 据 也 是 裸 数据 ， 在 写 入 文件 之 前 
也 需要 添加 上 ADTS 头 信息 ， 最 终 写 出 来 的 文件 才 可 以 被 系统 播放 器 播 
诺 加 头 信息 的 具体 操作 和 6.3.2 节 中 的 操作 是 一 样 的， 在 此 不 再 歼 
述 。 




















类 似 于 软件 编码 提供 的 三 个 接口 方法 ， 这 里 也 提供 了 三 个 接口 方 
法 ， 分 别 用 于 完成 初始 化 、 编 码 数据 和 销毁 编码 器 的 操作 。 在 介绍 这 三 
个 方法 的 实现 之 前 ， 先 定义 一 个 Protocol， 命 名 为 FillDataDelegate， 需 
要 客户 端 代码 来 实现 该 Delegate， 这 里 面 定义 了 三 个 方法 ， 第 一 个 方法 
的 代码 原型 如 下 : 


- UINt32) fillAudioData: (uint8_t*) sampleBuffer bufferSize: 
(UINt32) bufferSize; 





当 编码 器 〈 或 者 说 转换 器 ) 需要 编码 一 段 PCM 数 据 的 时 候 ， 就 通过 
该 方法 来 调用 客户 端 代 码 ， 让 实现 该 Delegate 的 客户 端 代码 来 填充 PCM 
数据 。 第 二 个 方法 的 代码 原型 如 下 : 





- (void) outputAACPakcet :(NSData*) data presentationTimeMills: 
(int64_t)presentationTimeMills error:(NSError*) error; 


待 编码 絮 (或 者 说 转换 器 〉 成功 编码 一 段 AAC 的 Packet 之 后 ， 紧 接 


着 就 是 为 这 段 数据 添加 ADTS 头 信息 ， 然 后 通过 上 面 的 方法 来 调用 客户 
端 代码 ， 由 客户 病 代 码 来 输出 相关 的 数据 。 最 后 一 个 方法 的 代码 原型 如 
下 : 





- (void) onCompletion; 





每 编码 占 (或 者 说 转换 右 〉 结束 之 后 ， 调 用 客户 端 代 码 的 这 个 方 
法 ， 让 客户 端 代码 可 以 对 自己 的 资源 进行 销毁 与 关闭 等 操作 。 


接 下 来 介绍 编码 器 类 提供 的 三 个 接口 方法 的 实现 ， 首 先是 初始 化 方 
法 的 实现 ， 之 前 笔者 曾 多 次 提 到 过 ，iOS 平 台 提 供 了 音 视频 的 API， 如 果 
需要 用 到 硬件 Device 相 关 的 API， 束 需要 配置 各 种 Session; 如 果 要 用 到 
与 提供 的 软件 相关 的 API， 就 需要 配置 各 种 Description 以 描述 配置 的 信 
娠 ， 而 在 这 里 需要 配置 的 Description 就 是 前 面 介绍 的 AudioUnit 部 分 所 配 
置 的 Description。 一 说 到 这 里 相信 大 家 就 不 再 卫生 了 ， 我 们 需要 分 别 配 
置 一 个 input 和 一 个 output 部 分 的 Description， 用 于 描述 所 提供 数据 的 声 
道 、 采 样 率 、 表 示 格 式 、 存 储 格 式 、 编 码 方式 等 信息 ， 具 体 代 码 如 下 : 

















// 构建 InputABSD 

AudioStreamBasicDescription inASBD = {0}; 

UInt32 bytesPerSample = sizeof (SINt16); 

inASBD .mFormatID = KAudioFormatLinearPCM 
inASBD.mFormatFlags = kAudioFormatFlagIsSignedInteger | kAudioFormatFlagIsPa 
inASBD.mBytesPerPacket = bytesPerSample * channels; 
InASBD ,mBytesPerFrame = bytesPerSample * channels,; 
inASBD.mChannelsPerFrame = channels,; 

InASBD .mFramesPerPacket = 1; 

InASBD .mBitsPerChannel = 8 * channels,; 
inASBD.mSampleRate = inputSampleRate; 
inASBD.mReserved = 0; 





这 里 配置 的 input 的 Description 是 PCM 格 式 的 ， 表 示 格 式 是 整数 表示 
并 且 是 交错 存储 的 ， 这 一 点 十 分 关键 ， 因 为 需要 按照 设置 的 格式 填充 
PCM 数 据 ， 或 者 反 过 来 说 ， 客 户 端 代码 填充 的 PCM 数 据 的 格式 是 什么 
样 的 ， 这 里 配置 给 input 摘 述 的 mFormatFlags 就 应 该 是 什么 样 的 ， 因 为 我 
们 提供 的 数据 就 是 交错 存储 的 ， 所 以 填充 的 后 续 几 个 关键 值 都 得 乘 以 


channels 。 
在 iOS 的 音频 流 描述 的 配置 中 ， 最 重要 的 驶 是 存储 格式 和 表示 格式 


的 配置 ， 表 示 格 式 是 指 用 整数 或 者 浮 点 数 表示 一 个 sample; 存储 格式 是 
日 交错 存储 或 非 交 错 存储 ， 输 出 或 者 输入 数据 都 存储 于 AudioBufferList 











中 的 属性 ioData 中 。 假 设 声 道 是 双 声 道 的 ， 那 么 对 于 交错 存储 
(IsPacked) 来 讲 ， 对 应 的 数据 格式 如 下 : 





ioData->mBuffers[0]: LRLRLRLRLRLR... 





而 对 于 非 交错 的 存储 (NonInterleaved) 来 讲 ， 对 应 的 数据 格式 如 





ioData->mBuffers[0]: LLLLLLLLLLLL. 
ioData->mBuffers[1]: RRRRRRRRRRRR... 








这 也 就 要 求 客 户 病 代码 需要 按照 配置 的 格式 描述 来 填充 或 者 获取 数 
据 ， 否 则 就 会 出 现 不 可 预知 的 问题 。 接 下 来 再 看 一 下 ， 如 果 要 转换 成 为 
AAC 的 格式 ， 那 么 应 该 如 何 配 置 output 的 Description: 





// 构造 OutputABSD 
AudioStreamBasicDescription outASBD = {0}; 
OutASBD.mSampleRate = inASBD.mSampleRate,; 
OutASBD .mFormatID = kAudioFormatMPEG4AAC; 
OUtASBD.mFormatFlags = kMPEG40bject_AAC_LC; 
OUutASBD.mBytesPerPacket = 0; 

OutASBD .mFramesPerPacket = 1024; 

OutASBD .mBytesPerFrame = 0; 
OutASBD.mChannelsPerFrame = inASBD.mChannelsPerFrame,; 
OutASBD.mBitsPerChannel] = 0; 

OUutASBD .mReserved = 0; 





这 里 面 需 要 注意 的 是 ，mFormatID 需 要 配置 成 AAC 的 编码 格式 ， 
Profile 需 要 配置 为 低 运 算 复 杂 度 的 规格 (LC) ， 最 后 需要 注意 的 一 点 
是 ， 配 置 一 帧 数据 时 ， 其 大 小 为 1024， 这 是 AAC 编 码 格式 要 求 的 帧 大 


小 。 














至 此 ， 输 入 和 输出 的 Description 就 配置 好 了 。 当 然 ， 还 需要 构造 一 
个 编码 器 类 的 描述 ， 用 于 提供 编码 器 的 类 型 以 及 编码 器 的 实现 方式 ， 
为 是 编码 AAC， 所 以 其 所 使 用 的 编码 器 类 型 是 : 
kAudioFormatMPEG4AAC， 编 码 的 实现 方式 是 使 用 兼容 性 更 好 的 软件 
编码 方式 (虽然 是 软件 编码 方式 ， 但 是 也 是 有 硬件 加 速 的 〉: 
kAppleSoftwareAudioCodecManufacturer。 通 过 这 两 个 输入 可 构造 出 一 个 
ee 它 将 告诉 iOS 系 统 开 发 者 想 要 使 用 的 到 底 是 哪 一 个 编 





有 了 上 述 的 三 个 Description (一 个 是 输入 数据 的 描述 ， 一 个 是 输出 
数据 的 描述， 还 有 一 个 是 编码 器 的 描述 ) ， 调 用 如 下 方法 就 可 以 构造 出 
一 个 AudioConverterRef 实 例 了 : 





OSStatus status = AudioConverterNewSpecific(&inABSD, &outABSD, 1, 
codecDescription, & audioConverter); 





第 三 个 参数 1 是 指明 要 创建 编码 器 的 个 数 ， 最 后 一 个 参数 就 是 我 们 
想 要 构造 的 转 码 器 实例 对 象 ， 返 回 值 是 OSStatus 类 型 的 变量 ， 如 果 返 回 
的 不 是 0， 则 表示 出 错 了 ， 如 果 返 回 值 是 0 或 者 是 iOS 定 义 的 一 个 常量 
noErr 则 表示 成 功 了 。 


现在 可 以 对 该 转 码 实 例 设置 比特 率 了 ， 代 码 如 下 所 示 : 

















AudioConverterSetProperty(_audioConverter, kAudioConverterEncodeBitRate, 
sizeof(bitRate), &bitRate); 





之 后 需要 获取 编码 之 后 输出 的 AAC 其 Packet size 的 最 大 值 是 多 少 ， 
因为 需要 按照 该 值 来 分 配 编码 后 数据 的 存储 空间 ， 从 而 让 编码 器 输出 到 
该 存储 区 域 中 ， 代 码 如 下 : 








UInt32 size = sizeof(_aacBufferSize); 

AudioConverterGetProperty(_audioConverter, kAudioConverter 
PropertyMaximumOutputPacketSize, &size, & aacBufferSize); 

_aacBuffer = malloc(_aacBufferSize * sizeof(uint8_t)); 
memset(_aacBuffer, ©0, _aacBufferSize); 








至 此 初始 化 方法 束 结 束 了 ， 这 里 面 除 了 分 配 出 编码 器 以 及 为 编码 器 
设置 比特 率 之 外 ， 还 需要 根据 获取 到 的 输出 AAC 的 Packet 大 小 分 配 存储 
AAC 的 Packet 的 存储 空间 。 


下 面 来 看 第 二 个 接口 ， 真 正 编码 函数 的 实现 。 首 先 要 利用 前 面 已 初 
始 化 好 的 _aacBuffer 构 造 出 一 个 AudioBufferList 的 结构 体 ， 作 为 编码 器 输 
出 AAC 数 据 的 存储 容器 ， 代 码 如 下 : 











AudioBufferList outAudioBufferList = {0}; 
outAudioBufferList.mNumberBuffers = 1; 
outAudioBufferList.mBuffers[0].mNumberChannels = _channels; 
outAudioBufferList.mBuffers[0].mDataByteSize = aacBufferSize; 


outAudioBufferList.mBuffers[0].mData = _aacBuffer ; 





构造 出 该 结构 体 之 后 ， 就 可 以 调用 编码 喜 的 编码 〈 转 换 ) 函数 了 。 
但 是 有 的 读者 会 有 疑问 ， 我 们 还 没有 拿 到 PCM 数 据 ， 又 该 如 何 调用 编码 
器 编码 呢 ? 也 就 是 数据 源 从 哪里 来 呢 ? 其 实在 iOS 中 提供 的 API 一 般 都 是 
按照 回调 函数 的 方式 获取 数据 源 的 ， 这 里 就 古 一 个 非常 典型 的 应 用 : 








UInt32 ioOutputDatapacketSize = 1; 

OSStatus status = AudioConverterFillComplexBuffer( 
_audioConverter, inInputDatapProc, (__ bridge void *)(self), 
&iooutputDataPacketSize，&outAudioBufferList，NULL) ， 





再 来 总 体 解释 一 下 该 函数 ， 其 中 第 一 个 参数 是 实例 化 好 的 编码 右 
《或 者 说 是 转换 器 ) ; 第 二 个 参数 束 是 一 个 回调 函数 ， 即 当 编 码 器 (或 
者 说 是 转换 髓 ) 和 需要 开发 者 填充 数据 的 时 候 ， 编码 器 (或 者 转换 器 〉 束 
会 调用 这 个 回调 函数 来 获得 PCM 数 据 ; 接 下 来 的 参数 束 是 对 象 本 身 ， 回 
调 函 数 一 般 都 会 传 入 一 个 context， 以 便 调用 本 对 象 的 方法 ; 接 下 来 的 参 
数 束 是 输出 的 AAC 的 Packet 的 大 小 ;， 再 就 是 编码 之 后 的 AAC 的 Packet 存 
UY 最 后 一 个 参数 是 输出 AAC 的 Packet 的 Description， 一 般 填 充 
入 NULL.。 


下 面 来 看 一 下 该 回调 函数 的 原型 以 及 在 回调 函数 中 如 何 填充 PCM 数 
据 ， 该 回调 函数 的 原型 如 下 : 

















OSStatus inInputDataProc(AudioCconverterRef InAudioconverter，UInt32 
*IoNumberDataPackets，AudioBufferList *ioData, 
AudioStreamPacketDescription **outDataPacketDescription， 
void *inUserData) 








下 面 来 看 一 下 该 回调 函数 的 有 具体 参数 ， 第 一 个 参数 是 编码 器 〈 或 者 
说 转换 器 ) 的 实例 ， 第 二 个 参数 是 需要 填充 多 少 个 PCM 的 packet (或 者 
说 是 frame) ; 第 三 个 参数 是 开发 者 实际 填充 PCM 数 据 的 容器 ;第 四 个 
参数 是 填充 输出 Packet 的 Description 但 是 在 这 里 不 使 用 ， 最 后 一 个 参 
数 就 是 上 下 文 ， 即 在 调用 编码 函数 〈 或 者 说 转换 函数 ) 的 时 候 传 入 的 对 
象 本 身 。 像 大 多 数 的 回调 函数 一 样 ， 我 们 可 以 将 inUserData 强 制 转换 为 
本 类 类 型 的 一 个 实例 对 象 ， 然 后 就 可 以 调用 该 对 象 的 方法 了 ， 代 码 如 
下 











AudioToolboxEncoder *encoder = (_ bridge AudioToolboxEncoder *) 

(inUserData); 

return [encoder fillAudioRawData:ioData ioNumberDataPackets: 
ioNumberDataPpackets]; 





在 这 个 静态 的 回调 函数 中 ， 通 过 上 下 文 对 象 的 强制 类 型 转换 ， 就 可 
以 得 到 对 象 本 身 ， 进 而 可 以 调用 到 和 包 jAudioRawData 方 法 。 接 下 来 再 介 
绍 一 下 该 方法 的 具体 实现 ， 首 先 根据 需要 填充 的 帧 的 数目 、 当 前 声 道 数 
人 计算 公式 
0 下 所 示 : 








int bufferLength = ioNumberDatapackets * channels * sizeof(short); 





然后 根据 上 述 公 式 算 出 来 的 bufferLength 来 分 配 pcmBuffer， 接 下 来 
调用 delegate 里 面 的 纪 ]-AudioData: bufferSize: 方法 来 填充 数据 ， 最 后 
将 客户 端 代码 填充 好 的 pcmBuffer 放 入 ioData 容 器 中 并 人 返回， 这 样 就 完成 
了 为 编码 器 (或 者 说 是 转换 器 ) 提供 PCM 数 据 的 回调 函数 。 


编码 函数 (或 者 说 是 转换 函数 ) 执行 结束 之 后 ， 就 可 以 读 取出 前 面 
拿 出 定义 好 的 out-AudioBufferList 结 构 体 ， 编 码 好 的 数据 就 存放 在 这 
里 。 从 该 结构 体 的 属性 mBuffers[0].mData 中 读 取 出 AAC 的 原始 Packet， 
添加 上 ADTS 头 信息 ， 并 调用 delegate 的 方法 outputAACPakcet: 
presentationTimeMills: error: ， 该 方法 约定 由 客户 端 来 输出 编码 之 后 的 
带 有 ADTS 头 信息 的 AAC 数 据 ， 最 终 如 果 输 入 数据 为 空 ， 则 代表 结束 ， 
我 们 就 可 以 调用 delegate 的 方法 onCompletion， 让 客户 端 对 自己 的 资源 进 
行 关 闭 以 及 销毁 的 操作 了 。 


最 后 来 看 一 下 销毁 编码 器 的 接口 实现 ， 先 释放 已 分 配 的 填充 PCM 数 
据 的 pcmBuffer， 然 后 释放 分 配 的 接受 编码 器 输出 的 aacBuffer， 最 后 释 
放 编 码 器 ， 代 人 码 如 下 : 














if(_pcmBuffer) { 
free(_pcmBuffer); 
_pcmBuffer = NULL; 


} 
if(_aacBuffer) { 

free(_aacBuffer); 

_aacBuffer = NULL; 
AudioConverterDispose(_audioConverter); 


EE | 





至 此 编码 类 的 实现 就 全 部 实现 完毕 了 ， 集 成 阶段 的 实现 具体 如 下 。 


首先 客户 端 代 人 码 需 要 实现 该 类 中 定义 的 FilDataDelegate 类 型 的 
Protocol， 并 且 需 要 重 写 其 中 的 和 包 IAudioData 方 法 ， 以 便 为 该 编码 器 类 提 
供 PCM 数 据 ， 此 外 ， 还 需要 重 写 outputAAC-Packet 方 法 来 输出 编码 添加 
上 ADTS 头 的 AAC 的 码 流 数据 ， 重 写 onCompletion 方 法 以 关闭 上 自己 的 读 
写 文 件 等 操作 ;然后 实例 化 编码 费 ， 开 启 一 个 线程 (使 用 GCD) 来 调用 
2 ; 最 终 在 编码 结束 之 后 或 者 在 dealloc 方 法 中 调用 结束 编码 的 方 
5 


本 节 的 代码 实例 是 代码 仓库 中 的 AudioToolboxEncoder 工 程 ， 输 入 
就 是 bundle 目 录 下 面 的 vocal.pcm， 编 码 之 后 在 App 的 document 目 录 下 
面 ， 可 以 利用 Xcode 导出 App 的 container， 然 后 读 取出 AAC 文 件 使 用 
ffplay 播 放 或 者 使 用 ffprobe 查 看 格式 描述 。 





6.4 ”视频 画面 的 编码 


本 节 将 讨论 视频 的 编码 ， 对 于 视频 编码 的 原理 与 发 展 历 史 ， 本 书 的 
第 1 章 中 已 经 有 过 简单 的 介绍 ， 本 节 讨 论 的 主要 内 容 是 如 何以 软件 编码 
和 硬件 编码 的 方式 在 两 个 平台 上 分 别 完 成 H264 格 式 的 编码 工作 。 当 然 
软件 编码 实际 使 用 的 库 是 libx264 库 ， 但 是 开发 是 基于 FFmpeg 的 API 进 行 
的 ;对 于 人 硬件 编码 ， 可 使 用 各 自 平台 提供 的 硬件 编码 器 来 实现 。 而 编码 
的 输入 就 是 6.3 节 中 摄像 头 捕捉 的 纹理 图 像 〈 显 存 中 的 表示 ) ， 输 出 是 
H264 的 Annexb 封 装 格式 的 流 。 当 然 ， 如 果 读 者 愿意 自行 答 试 的 话 ， 也 
完全 可 以 使 用 前 面 第 5 章 中 解码 器 的 输出 作为 编码 器 的 输入 ， 其 实 这 束 
是 后 期 处 理 保存 的 过 程 ， 本 书 会 在 后 续 的 章节 中 进行 单独 介绍 。 

















6.4.1 libx264 编 码 H264 


在 iOS 平 台 上 ， 由 于 人 硬件 编码 器 的 兼容 性 比较 好 ， 所 以 基本 上 用 不 
到 libx264 这 些 软件 的 编码 器 ， 毕 葛 在 移动 平台 上 只 要 兼容 性 没有 问题 ， 
肯定 会 以 性 能 作为 第 一 考虑 因 系 ， 所 以 本 市 的 实例 只 需要 运行 在 
Android 平 台 上 即 可 。 但 是 编码 部 分 的 代码 都 是 使 用 C++ 来 编写 的 ， 是 跨 
平台 的 ， 因 此 如 果 在 iOS 平 台 上 有 需要 的 话 可 以 直接 使 用 编码 部 分 的 代 
码 。 由 于 输入 是 一 张 纹 理 ， 输 出 是 H264 的 裸 流 ， 因 此 可 将 实例 分 为 以 
下 几 个 部 分 来 讲解 。 


首先 ， 编 码 模块 的 输入 肯定 是 6.3 节 中 讲解 的 摄像 头 预 览 控制 器 演 
染 到 屏 间 之 前 的 纹理 ID。 先 来 看 一 下 编码 器 模块 的 两 种 实现 ， 本 节 讨 论 
的 是 软件 编码 器 ，6.4.2 市 将 讨论 便 件 编码 占 ， 对 此 ， 经 典 的 设计 就 是 抽 
象 出 一 个 接口 ， 然 后 提供 一 个 软件 编码 器 的 实现 和 一 个 人 硬件 编码 器 的 实 
现 。 接 下 来 看 一 下 在 摄像 头 预览 的 控制 器 这 个 类 里 ， 如 何 与 编码 器 模块 
进行 交互 ， 其 实 就 是 抽象 出 的 该 编码 器 模块 的 接口 ， 首 先是 初始 化 接 
口 : 


























void init(const char* h264Path, int width, int height, int videoBitRate, filc 
frameRate) 


该 接口 传 入 的 参数 分 别 是 编码 之 后 的 H264 文 件 的 存储 路 径 ， 编 码 
视频 的 宽 、 高 ， 编 码 H264 的 比特 率 ， 视 频 的 帧 率 等 。 该 接口 负 贡 将 这 
些 视频 编码 的 MetaData 信 息 存 储 到 全 局 变量 中 ， 并 且 执 行 打开 文件 的 操 
作 。 接 下 来 看 一 下 创建 编码 器 的 接口 : 


virtual int createEncoder(EGLCore* eglCore, int inputTexId) = 0; 


可 以 看 到 该 方法 是 一 个 纯 虚 的 方法 ， 代 表 由 具体 的 子 类 来 完成 操 
作 ， 由 于 编码 器 模块 的 输入 是 泻 染 到 屏幕 上 之 前 的 纹理 ID， 所 以 需要 对 
纹理 ID 进行 操作 ， 即 把 OpenGL ES 的 上 下 文 环境 的 封装 类 EGLCore 以 及 
要 演 染 的 纹理 D 传 入 进来 ， 该 接口 负责 创建 编码 器 资源 以 及 转换 纹理 对 
象 以 适 配 编码 器 ， 这 也 引出 了 编码 器 模块 入 口 的 接口 名 字 : 
VideoEncoderAdapter。 为 一 个 类 命名 其 实 束 是 根据 该 类 的 职责 而 确定 
的 ， 上 面 这 个 类 实际 上 就 是 将 输入 的 纹理 ID 做 一 个 转换 ， 使 得 转换 之 后 

















的 数据 可 以 作为 具体 编码 器 的 输入 ， 所 以 这 也 是 该 接口 的 名 字 所 代表 的 
意义 ， 而 本 节 要 完成 的 就 是 该 软件 编码 器 适配器 的 实现 ， 即 
SoftEncoderAdapter。6.4.2 市 将 会 完成 硬件 编码 器 适 配 右 的 实现 ， 即 
HWEncoderAdapter。 该 函数 需要 构建 出 OpenGL ES 环境 ， 并 且 创 建 编码 
器 ， 如 果 成 功 则 返回 0， 否 则 返回 负数 。 接 下 来 看 一 下 编码 接口 : 








virtual void encode() = 0; 











同样 的 ， 这 也 是 一 个 纯 虚 的 方法 ， 由 子 类 上 自己 来 完成 编码 操作 ， 实 
际 上 就 是 利用 自己 构造 的 OpenGL ES 演 染 线程 来 完成 适 配 工作 的 过 程 。 


下 面 来 看 下 一 个 接口 ， 即 销毁 编码 器 的 接口 : 


virtual void destroyEncoder() = 0; 








这 也 是 一 个 纯 虚 的 方法 ， 由 子 类 自己 来 完成 销毁 编码 器 以 及 销 筑 
OpenGL ES 的 泻 染 线程 ， 这 就 是 我 们 抽象 出 来 的 接口 的 三 个 方法 ， 通 过 
图 6-17 可 以 更 加 清晰 地 看 到 它们 之 间 的 调用 关系 。 





VideoEncoderAdapter 


MVRecording 
PreviewController 


1. 构造 编码 器 实例 createEncoder 
2. 初始 化 编码 右 

3. 每 一 帧 都 做 绢 码 操作 encode 

4. 停 止 编码 


destroyEncoder 
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图 6-17 


本 市 的 目标 就 是 完成 图 6-17 中 软件 编码 占 适 配器 的 实现 部 分 ， 即 
SoftEncoderAdapter 部 分 ， 首 先 从 全 局 来 看 一 下 软件 编码 器 的 整体 结 
构 ， 如 图 6-18 所 示 。 


SoftEncoderAdapter 
1-1: 创 建 VideoFrameQueue 
1-2: 创 建 编码 线程 
1-3: 创 建 纹理 拷贝 线程 
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2-1 济 断 编 取 由 数目 和 设置 


帧 数 日 的 关系 决定 丢 帧 VideoFrame 
2-2 纹理 找 贝 线程 执行 纹理 Queue 








Tn 
纹理 找 由 线程 


|. 建立 OpenGL 线 程 | 
2. 拷贝 纹理 
3. 纹 理 找 贝 内 丰 


4 压 入 视频 队列 
5. 检测 退出 信号 量 ， 
线程 退出 


找 贝 和 内 存 操作 
3-1 :停止 捧 岗 码 线程 
3-2: 销 毁 VideoFrameQueue 
3-3 :个 止 掉 纹 理 找 贝 线程 














图 6-18 


从 图 6-18 中 可 以 看 到 整个 软件 编码 器 模块 的 整体 结构 ， 其 实 ， 纹 理 
拷贝 线程 是 一 个 生产 者 ， 它 生产 的 视频 帧 会 放 入 VideoFrameQueue 中 ; 
而 编码 线程 则 是 一 个 消费 者 ， 其 可 从 VideoFrameQueue 中 取出 视频 帧 ， 
再 进行 编码 ， 编 码 好 的 H264 数 据 将 输出 到 目标 文件 中 。 


在 createEncoder 方 法 的 实现 中 ， 即 图 6-18 中 左边 框图 的 1-1、1-2 以 
及 1-3 部 分 ， 分 别 创建 存储 视频 帧 的 队列 VideoFrameQueue、 编 码 线程 以 
及 纹理 拷贝 线程 。 这 三 个 对 象 的 职责 一 目 了 然 ， 因 此 不 作 歼 述 ， 这 里 主 
要 来 看 一 下 这 三 个 对 象 是 如 何 实现 的 。 首 先 来 看 Video-FrameQueue， 这 
是 一 个 我 们 上 自己 实现 的 保证 线程 安全 的 队列 ， 实 际 上 就 是 一 个 链表 ， 链 
表 中 每 个 Node 节 点 内 部 的 元 素 均 是 一 个 VideoFrame 的 结构 体 ， 该 结构 体 
中 的 元 素 具 体 如 下 : 














typedef struct VideoFrame t { 























unsigned char * buffer; // YUV429P 的 图 像 数据 

int size; // 图 像 数 据 的 大 小 

int timeMills; // 所 代表 的 时 间 玲 

int duration; // 这 一 帧 图 像 所 代表 的 时 间 长 度 











} VideoFrame 





VideoFrameQueue 对 象 提供 了 以 下 几 个 接口 : 第 一 个 是 init 方 法 ， 该 
方法 会 初始 化 锁 来 保证 线程 的 安全 ， 同 时 也 会 初始 化 头 指针 和 尾部 指针 
为 空 ， 此 外 ， 还 将 初始 化 一 个 布尔 形变 量 ， 代 表 是 否 要 丢弃 所 有 帧 ， 即 
mAbortRequest; 第 二 个 就 是 put 方 法 ， 在 保证 线程 安全 ( 即 在 操作 指针 
前 后 上 锁 和 解锁 ) 的 前 提 下 ， 将 新 的 元 素 连 接 到 该 链表 的 最 后 面 ， 并 且 
发 出 signal 指 令 ; 第 三 个 是 get 方 法 ， 在 保证 线程 安全 性 〈 即 在 操作 指针 
前 后 上 锁 和 解锁 ) 的 前 提 下 ， 取 出 头 部 指针 指向 的 元 素 ， 并 且 将 指针 指 
向 下 一 个 元 素 ， 如 果 没 有 元 素 可 以 取出 的 话 ， 那 就 wait， 等 接收 到 signal 
指令 之 后 再 去 取出 元 素 ，signal 指 令 有 可 能 是 put 函 数 或 者 abort 函 数 被 调 
用 前 发 出 的 ， 第 四 个 是 abort 方 法 ， 即 我 们 要 放弃 队列 中 的 所 有 元 素 了 ， 
当 put 方 法 和 get 方 法 再 次 被 调用 时 就 会 被 忽略 ;最 后 在 析 构 函数 中 会 把 
剩余 的 所 有 元 素 都 逐一 取出 ， 并 且 释 放 掉 ， 以 防止 内 存 池 漏 。 


下 面 再 来 看 编码 线程 ， 在 编码 线程 中 首先 需要 实例 化 编码 器 ， 然 后 
进入 一 个 循环 ， 不 断 从 VideoFrameQueue 里 面 取 出 视频 帧 元 素 ， 调 用 编 
码 器 进行 编码 ， 如 果 从 VideoFrameQueue 中 获取 元 素 的 返回 值 是 -1， 则 
跳出 循环 ， 最 后 销毁 编码 器 ， 代 码 如 下 : 





























encoder = new VideoX264Encoder(); 
encoder->init(videowidth, videoHeight, videoBitRate, frameRate, h264File); 
LiveVideoFrame *videoFrame = NULL; 
while(true)t{ 
if (videoFramePool->getYUY2Packet(&videoFrame, true) < 0) { 
break; 


If(VideoFrame ){ 
// 调用 编码 器 编码 这 一 帧 的 数据 
encoder ->encode(videoFrame); 
delete videoFrame; 
videoFrame = NULL; 

















} 


} 

if(NULL != encoder){ 
encoder ->destroy(); 
delete encoder; 
encoder = NULL; 


} 





现在 分 析 纹 理 找 贝 线程 ， 由 于 将 纹理 从 显存 中 拷贝 到 内 存 中 需要 耗 


费 的 时 间 比 较 长 ， 为 了 尽量 不 阻塞 预览 界面 的 泻 染 线程 ， 因 此 建立 了 该 
纹理 找 贝 线程 。 该 线程 首先 需要 初始 化 OpenGL ES 的 上 下 文 环境 ， 然 后 
绑 定 到 新 建立 的 这 个 纹理 拷贝 线程 之 上 。 该 纹理 拷贝 线程 拷贝 的 纹理 ID 
是 在 客户 端 代码 调用 createEncoder 方 法 的 时 候 传 递 进来 的 ， 而 该 纹理 是 
在 预览 界面 泻 染 线程 的 上 下 文中 创建 的 ， 那 么 为 什么 在 新 建立 的 演 染 线 
程 中 可 以 访问 到 呢 ? 这 也 是 我 们 要 将 EGLCore 从 预览 控制 类 中 传递 过 来 
的 原因 ， 因 为 我 们 要 使 用 OpenGL 中 共享 上 下 文 的 概念 ， 即 在 创建 
OpenGL ES 上 下 文 的 时 候 ， 使 用 已 经 存在 的 EGLContext 而 不 是 
EGL_NO_CONTEXT， 这 样 ， 新 创建 的 这 个 上 下 文 束 可 以 和 已 经 存在 的 
EGLContext 共 享 所 有 的 OpenGL 对 象 了 ， 包 括 纹理 对 象 、 帧 缓存 对 象 ， 
等 等 。 而 这 里 已经 将 泻 染 线程 中 封装 的 EGLCore 这 个 指针 传递 过 来 了 ， 
也 就 是 可 以 获得 预览 界面 演 染 线程 的 OpenGL ES 的 上 下 文 了 。 此 外 ， 创 
建 OpenGL ES 上 下 文 的 时 候 会 将 传递 过 来 的 上 下 文 当 作 第 三 个 参数 传递 
进去 ， 这 样 我 们 在 当前 纹理 拷贝 线程 中 就 可 以 访问 预览 界面 演 染 线程 所 
创建 的 纹理 对 象 了 。 代 码 如 下 : 

















eglCore = new EGLCore(); 

eglCore->init(previewGLContext ) ， 

copyTexSurface = eglCore->createOoffscreenSurface(videowidth, videoHeight); 
eglCore->makeCurrent(copyTexSurface); 








古 时 候 创 建 一 个 输出 纹理 ID 了， 我 们 拷贝 的 目标 就 是 该 输出 纹理 对 
象 ， 此 外 ， 还 需要 创建 一 个 帧 缓存 对 象 ， 帧 缓存 对 象 是 任何 一 个 
OpenGL Program 泻 染 的 目标 。 当 然 像 之 前 直接 泻 染 到 屏幕 上 的 都 会 有 一 
个 默认 的 帧 缓存 对 象 ， 但 目前 的 场景 并 不 是 向 屏 幕 上 绘制 ， 而 是 进行 弘 
理 找 贝 ， 所 以 我 们 需要 自行 创建 一 个 帧 缓存 对 象 。 创 建 纹 理 I 有 D 与 帧 缓存 
对 象 的 代码 如 下 : 








glGenFramebuffers(1, &mFBO); 
glGenTextures(1, &outputTexId); 





在 进行 真正 的 拷贝 之 前 ， 需 要 显 式 地 绑 定 该 帧 的 缓存 对 象 ， 然 后 使 
用 一 个 通用 的 renderer 〈 使 用 OpenGEL 的 Program 将 输入 纹理 ID 绘制 到 我 
们 绑 定 的 帧 缓存 对 象 上 ) ， 这 个 renderer 是 在 播放 器 项 目 中 封装 的 通用 
的 演 染 代码 ，renderer 的 泻 染 目标 就 是 绑 定 的 这 个 帧 的 缓存 对 象 ， 又 因 
为 我 们 把 输出 纹理 ID 绑 定 到 了 这 个 帧 缓存 对 象 之 上 ， 所 以 就 相当 于 是 将 
输入 纹理 的 内 容 绘制 到 了 输出 纹理 上 面 去 了 。 完 成 找 贝 之 后 需要 再 解 绑 
定 这 个 帧 缓存 对 象 ， 代 码 如 下 : 








glViewport(0, 0, videowidth, videoHeight); 
glBindFramebuffer(GL_ FRAMEBUFFER, mFBO); 
checkGlError("glBindFramebuffer FBO"); 

Jong StartTimeMills = getCurrentTime(); 
renderer->renderToTexture(texId, outputTexId); 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 


在 找 贝 到 目标 纹理 之 后 ， 就 可 以 让 预览 线程 继续 进行 自己 的 工作 
了 ， 但 是 在 找 贝 成 功 之 前 ， 需 要 阻塞 预览 线程 ， 具 体 实 现 束 是 在 调用 
encode 方 法 的 时 候 使 用 条 件 锁 wait， 待 纹理 拷贝 线程 拷贝 成 功 了 之 后 ， 
发 送 一 个 signal 指 令 过 来 ，encode 方 法 接受 到 signal 指 令 之 后 就 可 以 结束 
了 ， 以 让 预览 线程 继续 运行 。 这 样 束 可 以 达到 最 短 时 间 的 阻塞 预览 线 
程 ， 以 防止 发 生 预 吃 界 面 的 FPS 降 低 ， 然 后 我 们 需要 做 的 束 是 ， 将 该 输 
出 纹理 ID 的 内 容 找 由 到 内 存 中 ， 这 束 涉 及 显存 和 内 存 的 数据 传递 了 。 在 
做 视频 处 理 以 及 编 解 码 的 时 候 ， 需 要 遵从 一 个 原则 : 尽量 少 地 进行 显存 
和 内 存 的 交换 。 但 是 在 不 得 已 的 情况 下 ， 必 须要 将 显存 中 的 数据 传递 到 
内 存 中 ， 因 为 我 们 是 使 用 X264 进 行 编码 操作 的 ， 而 X264 的 输入 必须 是 
内 存 中 的 数据 。OpenGL 中 提供 了 显存 到 内 存 的 数据 转换 API: 
21ReadPixels， 它 一 共有 7 个 参数 ， 第 一 个 和 第 二 个 参数 表示 了 完 形 左下 
角 的 横 、 纵 坐标 ， 坐 标 系 就 是 OpenGL 的 纹理 坐标 系 ; 第 三 个 和 第 四 个 
参数 表示 了 和 矩形 的 冤 度 和 高 上 度 第 五 个 参数 是 读 取 的 内 容 格式 ， 一 般 是 
读 取 RGBA 格 式 的 数据 ， 第 六 个 参数 是 读 取 的 内 容 在 内 存 中 的 表示 格 
式 ; 第 七 个 参数 就 是 我 们 要 存储 到 的 内 存 区 域 的 指针 。 该 函数 默认 会 读 
取出 RGBA 格 式 的 数据 ， 并 且 会 非常 耗 时 ， 读 取 的 内 容 区 域 越 大 ， 所 消 
耗 的 时 间 也 会 越 多 ， 所 以 对 于 分 辨 紊 大 的 纹理 ID， 读 取 一 帧 数据 所 耗费 
的 时 间 束 比较 多 了 。 因 此 需要 把 显存 到 内 存 中 的 数据 交换 〈 耗 时 、 人 性 能 
低 ) 和 拷贝 纹理 (速度 快 ) 分 为 两 个 阶段 ， 使 得 最 终 效 果 不 会 阻塞 预览 
界面 的 泻 染 线程 。 而 对 于 显存 到 内 存 的 数据 转换 的 优化 ， 其 主要 的 思路 
就 是 减少 数据 量 的 读 取 ， 那 么 如 何 减少 数据 量 的 读 取 呢 ?” 可 以 把 一 张 
RGBA 格 式 的 纹理 ID 先 转换 为 YUY2 的 格式 ，YUY2 的 格式 将 为 每 个 像素 
保留 Y 分 量 ， 而 UV 分 量 在 水 平方 向 上 将 每 两 个 像素 采样 一 次 ， 即 一 个 像 
素 RGBA 格 式 使 用 4 个 字 节 来 表示 ， 而 YUY2 格 式 使 用 2 个 字 节 来 表示 ， 
这 样 从 显存 到 内 存 转换 数据 的 时 候 数 据 量 就 减 小 了 一 半 ， 而 读 取 所 耗费 
的 时 间 也 几乎 减少 到 了 原始 时 间 的 一 半 ， 但 是 我 们 需要 做 的 额外 工作 
是 ， 在 显存 中 通过 一 个 OpenGL ” Program 将 RGBA 格 式 转 换 为 YUY2 格 
式 ， 然 后 再 进行 读 取 ， 具 体 请 查看 代码 示例 中 的 host_gpu_copier.cpp 实 
现 文件 ， 最 后 将 YUY2 格 式 的 数据 交 给 编码 器 进行 编码 。 






































接 下 来 介绍 VideoX264Encoder 的 实现 ， 该 类 主要 完成 的 任务 是 将 
“es 图 像 数 据 编码 成 H264 的 压缩 数据 ， 然 后 写 到 H264 的 文件 





首先 ， 使 用 libx264 时 ， 并 不 是 直接 使 用 它 的 API， 而 是 基于 FFmpeg 
的 API 来 开发 的 ， 当 然 ， 在 此 之 前 要 将 libx264 交 又 编 译 到 FFmpeg 中 去 ， 
这 点 在 前 面 已 经 编译 进去 了 。 现 在 将 FFmpeg 的 头 文件 以 及 静态 库 文 件 
拉 入 到 工程 中 的 jni 目 录 下 ， 并 且 在 Android.mk 中 进行 合适 的 配置 ， 然 后 
新 建 一 个 C++ 文件 video_x264_encoder， 下 面 来 看 一 下 该 文件 对 外 提供 的 
接口 。 


初始 化 接口 : 


int init(int width, int height, int videoBitRate, float frameRate, 
FILE* h264File) 


上 述 接口 需要 传 入 要 编码 视频 的 宽 、 高 以 及 视频 的 码 率 和 帧 率 ， 最 
后 一 个 参数 是 编码 之 后 要 写 入 的 H264 文 件 ， 该 接口 负责 进行 初始 化 编 
码 器 上 下 文 以 及 编码 之 前 的 AVFrame 结 构 体 ， 如 果 成 功 则 返回 0， 和 否则 
返回 负数 。 接 下 来 看 一 下 第 二 个 接口 ， 实 际 的 编码 接口 : 














int encode(VideoFrame *videoFrame); 


该 接口 需要 传 入 的 参数 是 一 个 VideoFrame 的 结构 体 ， 该 结构 体 中 实 
际 上 包含 了 这 一 帧 图 片 的 YUY2 数 据 以 及 时 间 信 息 ， 之 前 也 提 到 过 ， 为 
了 性 能 考虑 ， 从 显卡 中 读 出 来 的 格式 是 YUY2 的 格式 ， 所 以 这 里 的 输入 
格式 是 YUY2 的 视频 帧 表示 格式 ， 而 libx264 输 入 的 格式 一 般 都 是 
YUV420P 的 格式 ， 所 以 要 在 将 数据 发 送 到 libx264 之 前 将 其 转换 成 为 
YUV420P 格 式 的 数据 ， 然 后 把 这 一 帧 图 像 编码 成 为 H264 的 数据 ， 并 写 
入 文件 。 如 果 编 码 失 败 则 返回 负数 ， 如 果 编 码 成 功 则 返回 0。 从 YUY2 到 
YUV420P 格 式 的 具体 转换 过 程 已 做 优化 ， 在 armv7 平 台 上 利用 Neon 指 令 
集 来 做 加 速 ， 在 X86 平台 使 用 SSE 指 令 集 来 做 加 速 ， 这 些 加 速 操 作 其 实 
都 是 SIMD 指 令 集 的 应 用 ， 就 是 单 指令 多 数据 的 操作 ， 由 于 篇 幅 关 系 具 
体 代 码 部 分 请 读者 参考 实例 代码 。 


接 下 来 再 看 最 后 一 个 销毁 接口 : 











void destroy(); 








该 接口 负责 销毁 编码 器 的 上 下 文 以 及 销毁 分 配 的 AVFrame 等 资源 。 


本 节 的 代码 示例 是 代码 仓库 中 的 CameraPreviewRecorder 的 Android 
工程 ， 读 者 可 以 更 改 CameraPreviewActivity 中 的 第 80 行 ， 调 整 为 软件 编 
码 ， 并 且 给 出 上 自己 的 路 径 ， 进 入 预览 界面 之 后 点 击 编码 按钮 开始 编码 ， 
当 点 击 停止 按钮 之 后 ， 编 码 结束 ， 然 后 可 以 利用 adb pull 命令 将 编码 之 
后 的 H264 文 件 导出 到 电脑 上 ， 最 后 再 利用 ffplay 进 行 播 放 以 观看 效果 。 





6.4.2 ” Android 平台 的 硬件 编码 器 MediaCodec 


在 Android 4.3 系 统 之 后 ， 用 MediaCodec 编 码 视频 成 为 了 主流 的 使 用 
场景 ， 尺 管 Android 的 碎片 化 比较 严重 ， 会 导致 一 些 兼 容 性 问题 ， 但 是 
硬件 编码 器 的 性 能 以 及 速度 是 非常 可 观 的 ， 并 且 在 4.3 系 统 之 后 可 以 通 
过 Surface 来 配置 编码 器 的 输入 ， 大 大 降低 了 显存 到 内 存 的 交换 过 程 所 使 
用 的 时 间 ， 从 而 使 得 整个 应 用 的 体验 得 到 大 大 提升 。 由 于 输入 和 输出 已 
经 确定 ， 因 此 接 下 来 将 直接 编写 MediaCodec 编 码 视频 帧 的 过 程 。 


6.4.1 节 中 已 经 介绍 了 预览 控制 器 类 如 何 调用 编码 器 模块 进行 编码 ， 
并 且 也 已 经 实现 了 软件 编码 器 的 子 类 ， 本 市 要 完成 的 目标 就 是 实现 硬件 
编码 器 子 类 的 编写 。 新 建 的 hw_encoder_adapter 类 继承 自 
video_encoder_adapter 类 ， 然 后 实现 所 有 的 虚 函 数 ， 包 括 创 建 编码 器 的 
createEncoder 方 法 ， 实 际 编码 的 encode 方 法 以 及 销毁 编码 吉 的 
destroyEncoder 方 法 。MediaCodec 的 具体 运转 流程 如 图 6-16 所 示 。 因 为 
MediaCodec 是 Android 提 供 的 Java 层 的 API， 因 此 需要 在 C++ 层 调用 Java 
0 所 以 需要 在 该 类 的 构造 方法 中 将 JavaVM 以 及 jObject 传 递 进 

















首先 来 看 一 下 创建 编码 器 的 方法 实现 ，6.4.1 节 中 ]ibx264 编 码 器 是 以 
内 存 中 的 数据 作为 输入 的 ， 所 以 我 们 需要 进行 显存 到 内 存 的 数据 交换 ， 
而 本 车 使 用 的 MediaCodec 是 允许 直接 以 显存 中 的 纹理 对 象 作 为 输入 的 ， 
这 束 在 提供 数据 的 速度 层面 有 了 很 高 的 保证 ， 同 时 也 减少 了 显存 到 内 存 
的 数据 交换 ， 这 一 点 也 是 十 分 关键 的 。 


调用 Java 层 对 象 封 装 的 创建 编码 噩 的 方法 ， 把 视频 的 宽 、 高 、 比 特 
率 、 帧 率 等 传递 上 去 ， 然 后 在 Java 层 利用 这 些 参数 创建 编码 类 型 
为 “video/avc” 的 MediaCodec 实 例 ; 然后 调用 该 实例 对 象 的 configure 方 法 
配置 编码 器 ;， 当 编码 器 配置 成 功 之 后 ， 再 调用 实例 对 象 的 
createInputSurface 方 法 创建 该 MediaCodec 的 输入 Surface; 然后 调用 实例 
对 象 的 start 方 法 来 开局 该 编码 器 。 接 下 来 我 们 将 Java 层 通过 MediaCodec 
创建 的 Surface 对 象 传 递 给 Native 层 ， 在 Native 层 构造 一 个 
ANativeWindow， 然 后 与 预览 控制 器 传递 过 来 的 EGLCore 共 同 创建 
EGLSurface， 最 后 再 创建 一 个 renderer， 即 我 们 封装 的 一 个 OpenGL 
Program， 目 的 是 利用 这 个 renderer 将 输入 纹理 ID 演 染 到 目标 Surface 上 
去 。 注 意 该 Surface 是 Java 层 MediaCodec 的 输入 Surface， 而 不 是 预览 控制 




















类 中 的 Surface (预览 控制 器 的 Surface 是 Java 层 的 Surface-View 的 
Surface) 。 由 于 上 述 过 程 比 较 复杂 ， 其 中 涉及 Java 层 和 Native 层 的 交 
十， 又 涉及 MediaCodec 的 使 用 ， 所 以 笔者 画 了 一 个 时 序 图 以 方便 读者 理 
解 ， 如 图 6-19 所 示 。 紧 接着 创建 一 个 jbyteArray 类 型 的 buffer， 用 于 在 
MediaCodec 中 拉 取 编码 之 后 的 H264 数 据 。 为 了 不 影响 预览 线程 的 刷新 
频率 ， 这 里 把 从 MediaCodec 中 拉 取 数据 的 操作 放 到 了 一 个 新 的 线程 中 ， 
所 以 这 里 需要 创建 出 一 个 线程 来 单独 进行 拉 取 编码 右 中 编码 数据 的 操 
作 。 另 外 由 于 MediaCodec 编 码 吉 编码 H264 数 据 的 时 候 ， 会 在 前 几 帧 中 
返回 SPS 和 PPS 信 息 ， 因 此 需要 将 SPS 和 PPS 作 为 全 局 变量 存储 下 来 ， 放 
到 每 一 个 关键 帧 的 前 面 ， 从 而 组 成 H264 文 件 。 关 于 SPS 和 PPS 的 具体 概 
念 ， 以 及 如 何 判 断 H264 这 一 帧 的 NALU Type， 前 面 的 章节 中 已 经 有 过 
介绍 ， 这 里 不 再 次 述 。 
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图 6-19 


下 面 再 来 看 一 下 编码 方法 的 实现 ， 把 第 一 次 编码 取得 的 当前 时 间 戳 
记录 为 开始 编码 的 时 间 惟 startTime， 之 后 再 调用 编码 操作 的 时 候 ， 取 出 
当前 时 间 减 去 startTime， 算 出 编码 时 长 ， 然 后 根据 帧 率 和 编码 时 长 算出 
我 们 期 待 的 编码 数目 expectedFrameCnt， 并 且 在 每 编码 一 帧 的 时 候 就 为 
全 局 变量 encodedFrameCnt 加 1。 通 过 比较 这 两 者 的 关系 ， 来 控制 是 否 将 
这 一 帧 视频 帧 发 送 给 编码 器 ， 并 且 发 送 给 编码 堪 的 这 一 帧 视频 帧 的 时 间 
戳 束 是 上 面 计 算 的 时 长 。 如 何 发 送 给 编码 器 呢 ? 首先 调用 库 EGL 的 
makeCurrent 方 法 ， 将 encoderSurface 作 为 演 染 目标 ， 接 下 来 调用 renderer 
将 输入 的 纹理 ID 演 染 到 Surface 上 去 ， 然 后 为 编码 器 设置 编码 的 时 间 ， 最 
后 回 拉 取 编码 数据 的 线程 发 送 一 个 指令 ， 让 其 到 MediaCodec 中 拉 取 
H264 的 数据 ， 并 调用 库 EGL 的 swapBuffer 泻 染 数据 。 代 码 如 下 : 











if (startTime == -1) 
startTime = getCurrentTime(); 
int64 _t curTime = getCurrentTime() - startTime; 
int expectedFrameCount = (int)(curTime / 1000.0f * frameRate + 0.5f); 
if (expectedFrameCount < encodedFrameCount) { 
// need drop frames 
return; 


encodedFrameCount++; 

If(EGL_NO_SURFACE != encoderSurface){ 
eglCcore->makecurrent(encoderSurface ) 
renderer->renderToView(texId, videowidth, videoHeight); 
eglCore->setPresentationTime(encoderSurface, 

((khronos_stime nanoseconds _t) curTime) * 1000000); 
handler->postMessage(new Message(FRAME AVAILIBLE)); 
eglCore->swapBuffers(encoderSurface) 


} 





那么 ， 拉 取 MediaCodec 中 H264 数 据 的 这 个 线程 是 如 何 工 作 的 呢 ? 
首先 传递 到 Java 层 的 参数 束 是 上 述 第 一 步 中 创建 的 jbyteArray 的 buffer， 
在 Java 层 会 调用 MediaCodec 的 dequeue-OutputBuffer 方 法 ， 该 方法 的 返回 
值 包含 以 下 几 种 状态 。 


:INFO_TRY_AGAIN _LATER， 代 表 获 取 数 据 超时 ， 稍 后 再 试 。 


:JINFO_OUTPUT_FORMAT _ CHANGED， 输 出 格式 发 生变 化 ， 需 要 
重新 获取 新 的 输出 格式 。 


:INFO_OUTPUT _BUFFERS_CHANGED， 输 出 的 缓冲 区 发 生变 








化 ， 需 要 重新 获取 新 的 绥 冲 区 。 


若 返 回 值 不 是 上 述 的 几 个 状态 ， 并 且 又 大 于 0 的 话 ， 我 们 束 可 以 取 
出 对 应 的 编码 数据 了， 然后 将 buffer 中 的 数据 复制 出 来 ， 并 调用 
MediaCodec 的 release 方 法 来 将 该 buffer 放 回 到 缓冲 队列 中 。 之 后 在 C++ 层 
就 可 以 拿 到 该 数据 了 ， 我 们 会 用 该 buffer 数 据 中 index 为 4 的 数据 与 0X1F 
做 “ 相 与 ?的 操作 来 判断 NALU 类 型 ， 如 果 是 SPS 和 PPS， 就 存储 到 全 局 变 
量 中 ， 因 为 要 在 每 一 个 关键 帧 前 面 写 入 SPS 和 PPS。 代 码 如 下 : 








int nalu_type = (outputData[4] & Ox1F); 

if (H264_NALU_TYPE_SEQUENCE_PARAMETER_SET == nalu_type) { 
spsppsBufferSize = size; 
spsppsBuffer = new byte[spsppsBufferSize]; 
memcpy(spsppsBuffer, outputData, spsppsBufferSize); 

} else if(NULL != spsppsBuffer){ 
if(H264_NALU_TYPE_IDR_PICTURE == nalu_type) 

fwrite(spsppsBuffer, 1, spsppsBufferSize, h264File); 





} 
fwrite(outputData, 1, size, h264File); 








最 后 再 来 看 一 下 销毁 编码 器 方法 的 实现 ， 首 先 要 停止 拉 取 编码 器 数 
据 的 线程 ， 然 后 调用 Java 层 的 方法 关闭 MediaCodec， 并 释放 相关 的 编码 
器 资源 ，Java 层 会 调用 MediaCodec 的 Stop 与 release 方 法 ， 最 后 ， 再 释放 
分 配 的 jbyteArray 类 型 的 buffer， 同 时 释放 全 局 的 SPS 和 PPS 的 buffer， 并 
且 关 闭 文件 。 


本 节 的 代码 示例 是 代码 仓库 中 的 CameraPreviewRecorder 的 Android 
工程 ， 读 者 可 以 更 改 CameraPreviewActivity 中 的 第 80 行 ， 调 整 为 便 件 编 
码 ， 并 且 可 以 输入 上 自己 的 路 径 ， 进 入 预览 界面 之 后 点 击 编码 投 钮 开始 编 
码 ， 点 击 停止 按钮 之 后 ， 编 码 结束 ， 然 后 可 以 利用 adb pull 命令 将 编码 
之 后 的 H264 文 件 导 出 到 电脑 上 ， 最 后 利用 ffplay 进 行 播放 以 观看 效果 。 








6.4.3 iOSs 平 台 的 硬件 编码 器 


6.4.1 节 中 完成 了 利用 软件 编码 器 libx264 编 码 H264 数 据 的 实例 ， 但 
其 是 基于 Android 平 台 的 ， 基 于 iOS 平 台 的 软件 编码 器 这 里 就 不 做 实现 
了 ， 如 果 读 者 有 兴趣 ， 可 以 直接 利用 6.4.1 节 编码 器 的 封装 类 ， 做 一 下 
iOS 平 台 上 的 输入 适 配 就 可 以 了 ， 因 为 在 iOS 平 台 上 硬件 编码 器 的 兼容 性 
比较 好 ， 所 以 对 于 H264 编 码 格式 一 般 不 需要 使 用 软件 编码 器 。 


在 iOS 8.0 以 后 ， 系 统 提 供 了 VideoToolbox 编 码 API， 该 API 可 以 充分 
使 用 硬件 来 做 编码 工作 以 提升 性 能 和 编码 速度 。 本 节 就 来 讲解 一 下 如 何 
将 一 系列 连续 的 纹理 ， 利 用 VideoToolbox 编 码 成 一 段 H264 的 数据 。 首 先 
来 介绍 VideoToolbox 如 何 将 一 帧 视频 帧 数据 编码 为 H264 的 压缩 数据 ， 并 
把 它 封 装 到 H264HWEncoderImpl 类 中 ， 然 后 再 将 封装 好 的 这 个 类 集成 进 
6.2.2 节 的 预览 系统 中 ， 集 成 进去 之 后 ， 对 于 原来 仅仅 是 预览 的 项 目 ， 也 
可 以 将 其 保存 到 一 个 H264 文 件 中 了 。 


1. 使 用 VideoToolbox 构 造 自己 的 编码 器 


使 用 VideoToolbox 可 以 为 系统 带 来 以 下 几 个 优点 ， 提 高 编码 性 能 
(使 得 CPU 的 使 用 率 大 大 降低 ) ， 增 加 编码 效率 (使 得 编码 一 帧 的 时 间 
顷 短 ) ， 延 长 电量 使 用 〈 耗 电量 大 大 降低 ) ， 而 VideoToolbox 是 iOS 8.0 
以 后 才 公 开 的 API， 既 可 以 做 编码 又 可 以 做 解码 工作 。 本 节 主 要 介绍 编 
码 的 ， 流程 ， 后 续 的 章节 也 会 对 使 用 VideoToolbox 完 成 解码 场景 内 容 
进行 讲解 。 


首先 ， 来 看 一 下 使 用 VideoToolbox 进 行 编 解码 的 输入 输出 分 别 是 什 
么 ， 只 有 明确 了 这 一 点 ， 才 可 以 知道 如 何 为 VideoToolbox 编 码 器 提供 输 
入 数据 ， 并 且 知 道 如 何 从 VideoToolbox 中 获取 编码 之 后 的 数据 。 
VideoToolbox 的 编码 原理 如 图 6-20 所 示 。 
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图 。6-20 


如 图 6-20 所 示 ， 左 边 的 三 帧 视频 帧 是 发 送 给 编码 器 之 前 的 数据 ， 开 
发 者 必须 将 原始 图 像 数 据 封装 为 CVPixelBuffer 的 数据 结构 ， 该 数据 结构 
是 使 用 VideoToolbox 编 解码 的 核心 ， 我 们 必须 要 理解 清楚 ，Apple 
Developer 官 网 上 针对 CVPixelBuffer 给 出 的 解释 是 其 是 主 内 存 中 存储 所 
有 像素 点 数据 的 一 个 对 象 ， 那 么 什么 是 主 内 存 ? 笔者 做 过 实验 之 后 理解 
为 主 内 存 其 实 并 不 是 我 们 平时 所 操作 的 内 存 ， 但 是 两 者 的 概念 是 可 以 关 
联 起 来 的 ， 所 以 笔者 将 主 内 存 理解 为 这 块 存储 区 域 存在 于 绥 存 之 中 ， 我 
们 在 访问 这 块 区 域 之 前 必须 先 锁定 这 块 区 域 : 











CVPixelBufferLockBaseAddress(pixel buffer, 0); 





然后 才 可 以 访问 这 块 内 存 区 域 : 





void* data = CVPixelBufferGetBaseAddress(pixel buffer) 








操作 data 变 量 可 以 向 该 内 存 区 域 填充 内 容 或 者 从 中 读 取 内 容 ， 最 终 
使 用 完毕 之 后 ， 要 解锁 该 区 域 ， 以 确保 后 续 操 作 可 以 正 稼 进行: 





CVPixelBufferRelease(pixel buffer ); 











从 它 的 使 用 方式 来 看 ， 该 区 域 衣 定 不 是 普通 的 内 存 访 问 ， 人 否则 不 会 
在 访问 内 存 区 域 之 前 和 之 后 加 上 锁定 、 解 锁定 等 操作 ， 前 面 的 章节 中 也 
说 过 ， 做 视频 开发 有 一 个 原则 : 尽量 少 地 进行 显存 和 内 存 的 交换 。 上 所 以 
在 iOS 的 开发 中 也 要 尽量 少 地 访问 它 的 内 存 区 域 ， 我 们 应 该 使 用 iOS 乎 台 
提供 的 对 应 的 API 来 完成 相应 的 操作 。 其 实 ， 可 以 回顾 一 下 6.2.2 节 中 所 
讲 的 Camera 回 调 ， 它 提供 给 我 们 的 数据 其 实 就 是 CVPixelBuffer， 只 不 过 
当时 使 用 的 引用 类 型 是 CVImageBufferRef， 但 是 可 以 在 iO0S 头 文件 定义 
中 找到 它 ， 其 实 就 是 CVPixelBuffer 的 另 一 个 定义 。 大 家 可 以 回 过 头 来 看 
一 下 Camera 的 回调 中 是 如 何 处 理 的 ， 其 核心 就 是 如 何 将 CVPixelBuffer 中 
的 内 容 构造 成 纹理 对 象 ， 以 供 OpenGL ES 使 用 ， 而 不 是 手动 获取 
CVPixelBuffer 的 内 存 地 址 ， 然 后 利用 OpenGL ES 提供 的 glTexImage2D 方 
法 来 将 内 存 中 的 数据 上 传 到 显存 ， 以 构建 纹理 对 象 ， 再 将 其 发 送 给 
OpenGL ES 使 用 。 而 iOS 的 CoreVideo 这 个 framework 提 供 的 方法 
CVOpenGLESTextureCacheCreateTextureFromImage 就 是 专门 用 来 将 纹理 
对 象 关联 到 CVPixelBuffer 表 示 视 频 帧 的 方法 。 


下 面 来 看 这 个 编码 器 输出 的 对 象 ， 可 以 看 到 图 6-21 表 示 的 是 一 个 
CMSampleBuffer 的 对 象 ， 如 果 大 家 还 有 印象 的 话 ，6.2.2 节 中 讲解 的 
Camera 回 调 给 我 们 的 视频 帧 也 是 CMSample-Buffer 的 对 象 ， 但 是 它们 所 
包含 的 内 容 完 全 不 一 样 ，Camera 预 览 返 回 的 CMSampleBuffer 中 存储 的 
数据 是 一 个 CVPixelBuffer， 而 经 过 VideoToolbox 编 码 输出 的 
CMSampleBuffer 中 存储 的 数据 是 一 个 CMBlockBuffer 的 引用 ， 如 图 6-21 
所 示 。 
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图 6-21 


图 6-21 展 示 了 CMSampleBuffer 的 构成 方式 ， 左 边 代 表 了 压缩 格式 
《编码 器 输出 的 数据 ) 的 构成 ， 右 边 代 表 了 非 压缩 格式 〈 援 像 头 采集 到 
的 数据 或 者 解码 器 解码 出 来 的 数据 ) 的 构成 。 而 CMBlockBuffer 就 是 编 
码 之 后 数据 存放 的 对 象 ， 我 们 可 以 调用 CMBlockBufferGet-DataPointer 方 
法 来 获取 内 存 中 的 指针 ， 然 后 使 用 内 存 中 对 应 的 数据 去 做 自己 的 处 理 
〈 写 文件 或 者 发 送 到 网 络 ) 。 


既然 和 弄 清 楚 了 编码 器 的 输入 和 和 输出， 下面 束 来 看 一 下 如 何 构建 编码 
器 。 还 记得 之 前 一 直 说 的 一 句 关 于 iOS 多 媒体 API 的 话 吗 ? 那 就 是 使 用 任 
何 硬件 设备 时 都 要 使 用 对 应 的 Session， 使 用 麦克 风 以 及 Speaker 的 时 候 
使 用 的 是 AudioSession， 使 用 Camera 的 时 候 使 用 的 是 
AVCaptureSession， 而 这 里 使 用 的 会 话 就 是 VTCompressionSession， 这 
个 会 话 就 代表 要 使 用 编码 器 ， 等 后 续 讲 到 硬件 解码 场景 时 将 要 使 用 的 会 
话 就 是 VITDecompressionSessionRef。 那 么 下 面 就 来 讲解 如 何 定制 一 个 我 
们 需要 的 编码 器 的 会 话 。 


首先 ， 调 用 VTCompressionSessionCreate 方 法 将 要 编码 的 视频 的 





宽 、 高 、 编 码 器 类 型 (kCMVideoCodecType_H264) 、 回 调 函数 以 及 回 
调 函 数 上 下 文 传递 进去 ， 然后 构造 出 一 个 编码 器 会 话 ， 该 函数 的 返回 值 
是 一 个 OSStatus， 如 果 构 造成 功 则 返回 的 是 0， 如 果 不 成 功 则 要 给 出 提 
示 ， 用 于 通知 客户 端 代码 初始 化 编码 嚣 会话 失败 。 构 造成 功 之 后 要 为 该 

会 话 设 置 参数 ， 具 体 代码 如 下 : 





VTSessionSetProperty(EncodingSession, kVTCompressionpropertyKey_RealTime, 
kCFBooleanTrue); 

VTSessionSetProperty(EncodingSession, kVTCompressionPropertyKey_ProfileLevel 
kVTProfileLevel H264_High_AutoLevel); 

VTSessionSetProperty(EncodingSession ， 
kVTCompressionPropertyKey_AllowFrameReordering, kCFBooleanFalse); 

VTSessionSetProperty(EncodingSession, 
kVTCompressionPropertyKey_MaxKeyFrameInterval, 
(_ bridge CFTyperRef)(@(fps))); 

VTSessionSetProperty(EncodingSession, 

kvVTCompressionPropertyKey_ExpectedFrameRate, (_ bridgeCFTypeRef ) 

(@(fps))); 

VTSessionSetProperty(EncodingSession, kVTCompressionPropertyKey_DataRateLimi 
(__bridge CFArrayRef )@[@(maxBitRate / 8), @1.0]); 

VTSessionSetProperty(EncodingSession, kVTCompressionPropertyKey_AverageBitRa 
(__bridge CFTypeRef )@(avgBitRate)); 








这 里 面 第 一 个 参数 设置 的 是 需要 实时 编码 ， 第 二 个 参数 设置 的 是 使 
用 的 H264 的 Profile 是 High 的 AutoLevel 规 格 ， 第 三 个 参数 是 我 们 不 产生 B 
帧 ， 第 四 个 参数 是 设置 关键 帧 间隔 ， 也 就 是 通常 所 指 的 gop ”size， 第 五 
个 参数 是 设置 帧 京 ， 第 六 个 参数 和 第 七 个 参数 共同 用 于 控制 编码 器 输出 
的 码 紊 。 设 置 完 这 些 参 数 之 后 ， 调 用 
VTCompressionSessionPrepareToEncodeFrames 方 法 ， 告 诉 编码 器 开始 编 
码 。 下 面 把 构建 会 话 与 设置 参数 的 这 部 分 代码 封装 到 H264HW-Encoder 
类 的 初始 化 方法 中 ， 该 初始 化 方法 签名 如 下 : 





- (void)initEncode:(int)width height:(int)height fps:(int)fps 
maxBitRate: (int)maxBitRate avgBitRate: (int)avgBitRate,; 





在 最 开始 创建 该 会 话 的 时 候 指定 了 一 个 回调 函数 ， 该 回调 函数 是 在 
编码 器 编码 成 功 一 帧 之后， 把 编码 成 功 的 这 一 帧 数据 构造 成 一 个 
CMSampleBuffer 结 构 体 以 回调 这 个 函数 ， 开 发 者 要 在 这 个 回调 函数 里 处 
理 数 据 。 我 们 在 第 一 步 中 仅仅 明确 了 编码 堪 的 输入 和 输出 ， 其 实 并 没有 
说 明 编 码 吉 具体 是 如 何 使 用 的 ， 有 具体 来 说 是 在 使 用 我 们 封装 的 
H264HWEncoder 类 的 encode 方 法 的 时 候 ， 输 入 参数 是 一 个 
CVPixelBuffer， 然 后 构造 当前 编码 视频 帧 的 时 间 惟 以 及 时 长 ， 最 后 调用 








编码 会 话 对 这 三 个 参数 进行 编码 。 代 码 如 下 : 





int64_t currentTimeMills = CFAbsoluteTimeGetCurrent() * 1000; 
if(-1 == encodingTimeMills){ 
encodingTimeMills = currentTimeMills; 


int64 t encodingDuration = currentTimeMills - encodingTimeMills; 
CVImageBufferRef imageBuffer = (CVImageBufferRef) 
CMSampleBufferGetImageBuffer(sampleBuffer ) ， 
CMTime pts = CMTimeMake(encodingDuration, 1000.); // timestamp is in ms. 
CMTime dur = CMTimeMake(1, m_fps); 
VTEncodeInfoFlags flags; 
OSStatus statusCode = VTCompressionSessionEncodeFrame(EncodingSession, 
imageBuffer, 
pts, 
dur, 
NULL, NULL, &flags); 
if (statusCode != noErr) { 
error = @"H264: VTCompressionSessionEncodeFrame failed "; 
return; 








待 编 码 絮 编码 成 功 之 后 ， 残 会 回调 最 开始 初始 化 编码 器 会 话 时 传 入 
的 回调 函数 ， 回 调 函 数 的 原型 如 下 : 





void didCompressH264(void *outputCallbackRefCon, 
void *sourceFrameRefCon, 

OSStatus status, VTEncodeInfoFlags infoFlags, 
CMSampleBufferRef sampleBuffer ) 





开发 者 应 该 在 该 回调 函数 中 处 理 编码 之 后 的 数据 ， 首 先 判 断 
status， 如 果 编 码 成 功 则 返回 0 (实际 上 头 文 件 中 定义 了 一 个 枚 举 类 型 是 
noErr) ; 如 果 不 成 功 则 不 处 理 。 成 功 的 话 首先 来 判断 编码 成 功 之 后 的 
当前 帧 是 否 为 关键 帧 ， 判 断 关 键 帧 的 方法 如 下 : 





CFArrayRef array = CMSampleBufferGetSampleAttachmentsArray(sampleBuffer, trt 
CFDictionaryRef dic = (CFDictionaryRef)CFArrayGetValueAtIndex(array, 0); 
BOOL keyframe = !CFDictionaryContainskKey(dic, kCMSampleAttachmentKey_NotSync 





为 什么 要 判断 关键 帧 呢 ?” 因 为 VideoToolbox 编 码 器 在 每 一 个 关键 帧 
前 面 都 会 输出 SPS 和 PPS 信 息 ， 所 以 如 果 本 帧 是 关键 帧 ， 则 取出 对 应 的 
SPS 和 PPS 人 信息。 那么 如 何 取 出 对 应 的 SPS 和 PPpS 信 息 呢 ? 图 6-21 中 提 到 
CMSampleBuffer 中 有 一 个 成 员 是 CMVideoFormatDesc， 而 SPS 和 PPS 信 
妃 怠 存在 于 这 个 对 于 视频 格式 的 描述 里 面 。 取 出 SPS 的 代码 如 下 : 








CMFormatDescriptionRef fmt =CMSampleBufferGetFormatDescription(sampleBuffer) 

size_t sparameterSetSize, sparameterSetCount; 

const uint8_t *SparameterSet ， 

size_t paramSetIndex = 0;// 代表 sps 

OSStatus statusCode = CMVideoFormatDescriptionGetH264 

ParameterSetAtIindex(fmt, paramSetIindex, &sparameterSet, &sparameterSetSize, 
&sparameterSetCount, © ); 





同样 ， 取 出 PPS 的 代码 如 下 : 





size_t pparameterSetSize, pparameterSetCount; 

const uint8_t *pparameterSet ， 

size_t paramSetIndex = 1;// 代表 pps 

OSStatus statusCode = CMVideoFormatDescriptionGetH264 

ParameterSetAtIndex(fmt，paramSetIndex，&pparameterSet，&pparameterSetSize， 
&pparameterSetCount, © ); 





这 样 就 可 以 取出 SPS 和 PPS 的 信息 了 ， 接 着 再 把 这 一 帧 (有 可 能 是 
关键 帧 也 有 可 能 是 非 关 键 帧 ) 的 实际 内 容 提 取出 来 进行 处 理 。 首 先 ， 取 
出 这 一 帧 的 时 间 戳 ， 代 码 如 下 : 





CMTime pts = CMSampleBufferGetPresentationTimeStamp(buffer); 
double presentationTimeMills = CMTimeGetSeconds(pts)*1000; 





然后 再 取出 具体 的 压缩 后 的 数据 ， 代 码 如 下 : 





CMBlockBufferRef data = CMSampJeBufferGetDataBuffer(buffer ) 





取出 真正 的 压缩 后 的 数据 CMB1lockBuffer 之 后 ， 然 后 就 可 以 访问 这 
0 然后 写 文 件 ， 具 体 的 代码 可 以 参考 项 目 实 
列 中 的 代码 。 


最 后 是 释放 编码 器 ， 首 先 调用 
VTCompressionSessionCompleteFrames 方 法 强制 编码 器 完成 编码 1 , 
然后 调用 YTCompressionSessionInvalidate 方 法 吉 束 编码 嚣 会话， 最终 调 
用 CFRelease 方 法 释放 编码 嚣 会话。 释放 编码 器 方法 的 签名 为 : 











- (void)endCompresseion 





2. 将 编码 器 集成 进 系统 





前 面 已 将 VideoToolbox 成 功 地 封装 到 我 们 目 己 的 类 中 了 ， 并 且 提 供 
了 调用 的 接口 ， 这 里 会 把 该 H264HWEncoder 集 成 到 6.2.2 节 给 出 的 预览 
实例 中 ， 然 后 提供 一 个 按钮 ， 点 击 编 码 按钮 可 以 将 预览 的 内 容 编码 并 且 
写 入 一 个 H264 文 件 中 ， 点 击 停止 则 停止 编码 。 


6.2.2 节 已 经 按照 我 们 的 设计 将 Camera 连 接 到 了 GLImageView 上 面 
了 ， 而 基于 之 前 的 设计 ，Camera 是 输入 端 ， 它 将 处 理 完 的 纹理 对 象 传递 
给 GLImageView， 而 GLImageView 是 一 个 输出 节点 ， 是 让 用 户 可 以 在 屏 
幕 上 看 见 预 览 图 像 的 输出 节点 。 本 节 即 将 编写 的 Video-Encoder 也 是 一 个 
输出 节点 ， 该 输出 节点 是 编码 并 写 到 磁盘 中 的 ， 所 以 先 编写 一 个 Video- 
Encoder， 让 Camera 也 连接 到 我 们 的 VideoEncoder 上 。 首 先 建立 
ELImageVideoEncoder 实 现 ELImageInput 这 个 Protocol， 代 表 我 们 新 建立 
的 这 个 节点 是 可 以 被 输入 纹理 对 象 的 ， 然 后 编写 初始 化 方法 ， 可 以 让 客 
户 端 代码 创建 该 节点 的 时 候 将 编码 参数 传递 进来 ， 初 始 化 方法 定义 如 
下 : 





- (id) initwithFPS: (float) fps maxBitRate:(int)maxBitRate 
avgBitRate: (int)avgBitRate encoderwidth:(int)encoderwidth 
encoderHeight:(int)encoderHeight; 





由 于 我 们 实现 了 ELImageInput 这 个 Protocol， 所 以 需要 实现 保存 输 
入 纹理 的 方法 和 渲染 纹理 的 方法 。 新 建 一 个 ELImageTextureFrame 指 针 
类 型 的 纹理 来 保存 输入 的 纹理 对 象 ， 然 后 建立 一 个 EncoderRenderer 来 泻 
染 输 入 的 纹理 对 象 ， 而 这 个 泻 染 过 程 其 实 就 是 将 输入 纹理 对 象 泻 染 到 编 
码 纹理 对 象 之 上 ， 但 是 这 里 有 两 点 需要 注意 。 


第 一 点 ， 由 于 要 将 纹理 对 象 演 染 之 后 再 放 到 编码 器 中 ， 因 此 会 涉 
OpenGL 坐 标 系 到 计算 机 坐标 系 的 转换 ， 故 而 这 里 在 渔 染 到 目标 纹理 对 
象 的 时 候 要 把 整个 图 像 HElip 一 下 ， 即 将 每 个 坐标 的 Y 顶 点 0、1 互 换 一 
下 。 物 体 坐 标 如 下 ; 




















static const GLfloat imageVertices[] = { 
-1.0f, -1.0f, 





纹理 坐标 如 下 : 


| 


static const GLfloat hFlipTextureCoordinates[] = { 
0.0f, 1.0f, 
1.0f, 1.0f, 
0.0f, 0.0f, 
1.0f, 0.0f, 
}; 








第 二 点 ， 由 于 泻 染 到 的 目标 纹理 对 象 需要 交 给 编码 器 进行 编码 ， 即 
我 们 的 目标 纹理 对 象 必 须 与 一 个 CVPixelBuffer 关 联 起 来 ， 所 以 在 构建 目 
标 纹理 对 象 的 时 候 势 必 不 能 与 创建 普通 的 纹理 对 象 一 样 。 其 实 ， 在 
ELImageVideoCamera 节 点 中 已 经 实现 了 将 一 个 纹理 对 象 和 一 个 
CVPixelBuffer 关 联 起 来 的 操作 ， 只 不 过 这 里 关联 的 纹理 格式 是 RGBA 的 
格式 ， 而 存储 的 像素 格式 会 使 用 iOS 特 有 的 BGRA 格 式 。 代 码 如 下 : 





CVOpenGLESTextureCacheCreateTextureFromImage (kCFAllocatorDef 
ault, coreVideoTextureCache, renderTarget, NULL, GL_TEXTURE_2D, 
GL_RGBA, _width, _height, GL_BGRA,GL_UNSIGNED_ BYTE, 09, 
&renderTexture); 





其 中 renderTarget 就 是 一 个 CVPixelBuffer 的 引用 ， 如 此 一 来 
renderTexture 这 个 纹理 对 象 就 是 该 节点 的 演 染 目标 了 ， 只 不 过 这 里 的 泻 
染 行 为 是 将 图 像 做 一 个 上 下 翻转 。 再 来 看 最 关键 的 一 步 ， 即 泻 染 完成 之 
后 ， 实 际 上 泻 染 的 内 容 会 存在 于 这 个 CVPixelBuffer 中 ， 这 样 我 们 就 可 以 
将 该 renderTarget 传 递 给 编码 器 进行 编码 操作 了 。 当 然 ， 在 交 给 编码 器 之 
前 先 要 进行 锁定 ， 编 码 器 使 用 完毕 之 后 要 解锁 这 个 CVPixelBuffer。 具 体 
代码 可 以 参照 本 节 的 代码 示例 。 


3.iOS 平 台 高 层次 的 硬件 编 解码 API 的 理解 


先 扩展 一 下 本 节 的 知识 面 ， 了 解 一 下 iOS 系 统 为 开 友 者 提供 的 非常 
强大 的 多 媒体 API 库 ， 当 然 万 变 不 离 其 未 ， 这 些 高 级 的 API 都 是 基于 我 
们 讲解 过 的 最 底层 的 VideoToolbox 进 行 封装 的 ， 并 且 提 供 了 单一 的 接口 
来 完成 某 些 具体 的 事情 。 
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图 6-22 


如 图 6-22 所 示 ，iOS 平 台 提 供 的 多 媒体 接口 是 从 底层 到 上 层 的 结 
构 ， 之 前 都 是 直接 使 用 VideoToolbox， 而 AVFoundation 是 基于 
VideoToolbox 进 行 的 封装 。 它 们 的 关注 点 不 一 样 : VideoToolbox 更 关注 
编码 成 为 内 存 中 的 CM-SampleBuffer 结 构 体 ， 以 及 解码 成 为 主 内 存 (或 
者 理解 为 显存 ) 中 的 CVPixelBuffer 结 构 体 ， 而 AVFoundation 则 更 关注 于 
解码 后 直接 显示 以 及 直接 编码 到 文件 中 。 下 面 重 点 来 看 一 下 
AVFoundation 这 个 层次 提供 的 几 个 主要 API。 








(1) AVAssetWriter 


从 名 字 上 可 以 看 出 ， 这 是 为 了 写 入 本 地 文件 而 提供 的 API， 该 类 可 
以 方便 地 将 图 像 和 音频 写成 一 个 完整 的 本 地 视频 文件 ， 首 先 来 看 一 下 前 
面 是 如 何 利 用 VideoToolbox 编 码 视频 文件 的 ， 如 图 6-23 所 示 。 


CMSample Movie 
CVPixelBuffers Buffers File 





先 从 OpenGL ES 中 拿 到 纹理 对 象 ， 然 后 关联 到 CoreVideo 这 个 
framework 里 面 提 供 的 CVPixelBuffer 中 去 ， 然 后 提供 给 VideoToolbox 进 
行 编码 ， 最 终 将 其 写成 H264 文 件 或 者 封装 到 一 个 视频 文件 中 去 。 但 是 
如 果 仅 仅 是 写本 地 文件 ， 其 实 并 不 需要 这 么 有 麻烦， 我 们 可 以 利用 iOS 封 
装 好 的 API 很 简单 地 完成 这 种 场景 ， 如 图 6-24 所 示 。 
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图 6-24 


可 以 看 到 AVAssetWriterInput 将 编码 器 以 及 后 续 的 处 理 和 封装 的 工 
作 组 装 到 了 一 起 ， 提 供 了 更 单一 的 接口 调用 ， 其 完成 的 功能 也 更 加 清 
晰 ， 这 也 是 iOS 平 台 提 供 的 多 媒体 API 强 大 的 地 方 ， 当 然 这 也 仅 限 于 本 地 
文件 。 如 果 是 直播 场景 ， 将 编码 后 的 码 流 推送 到 流 媒 体 服务 器 的 话 ， 就 
不 能 使 用 这 个 API 了 ， 所 以 在 工作 中 需要 根据 场景 选择 不 同 的 技术 实 
现 。 具 体 代 码 就 不 做 展示 了 ， 读 者 想 要 继续 了 解 的 话 ， 建 议 在 GitHub 上 
找到 GPUImage 框 架 ， 里 面 有 一 个 类 GPUImageMovieWriter 非 常 详 尽 地 
使 用 了 这 个 API， 大 家 可 以 阅读 其 源码 。 


(2) AVAssetReader 


从 名 字 上 来 看 ， 这 是 为 了 读 取 本 地 文件 而 存在 的 一 个 类 ， 该 类 可 以 
方便 地 将 本 地 文件 中 的 音频 和 视频 解码 出 来 。 下 面 来 看 一 下 如 何 利用 
VideoToolbox 解 码 视 频 ， 然 后 再 使 用 Video-Toolbox 编 码 成 为 一 个 本 地 的 
视频 文件 的 整体 过 程 ， 如 图 6-25 所 示 。 














虽然 前 面 还 没有 介绍 如 何 使 用 VideoToolbox 解 码 H264 数 据 ， 但 是 大 
家 可 以 认为 解码 就 是 编码 的 一 个 逆 过 程 ， 开 发 者 需要 目 己 编写 很 多 代码 
来 控制 解码 器 的 很 多 状态 ， 包 括 输入 、 输 出 等 ， 而 在 AVFoundation 中 ， 
iOS 平 台 则 直接 将 其 封装 成 为 一 个 更 高 级 的 API， 如 图 6-26 所 示 。 
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图 。6-25 
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图 6-26 
AVAssetReaderOutput 也 只 文 持 本 地 文件 的 解码 ， 但 不 支持 网 络 媒 





体 文件 的 输入 ， 同 样 ， 这 里 也 不 再 进行 代码 展示 ， 如 果 读 者 有 兴趣 ， 可 
以 参考 GPUImage 框 架 中 的 GPUImageMovie 这 个 类 ， 其 在 离线 处 理 操 作 
的 场景 下 对 AVAssetReaderInput 这 个 API 的 使 用 有 比较 详尽 的 展开 。 


(3) AVAssetExportSession 


这 个 类 的 使 用 场景 比较 多 ， 比 如 拼接 视频 、 合 并 音频 与 视频 、 转 换 
格式 ， 以 及 压缩 视频 等 多 种 场景 ， 其 实 是 一 个 更 高 层次 的 封装 ， 如 图 6- 
27 上 所 示 。 
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图 6-27 


通过 图 6-25 可 以 看 到 ， 该 类 不 允许 我 们 做 中 间 的 处 理 操 作 ， 很 显然 
其 是 一 个 更 高 层次 的 封装 ， 它 只 允许 我 们 设置 一 些 预 设 值 和 提供 输入 输 
出 文件 等 ， 所 以 相 比 使 用 VideoToolbox， 或 者 使 用 AVAssetReader 和 
AVAssetWriter 来 实现 ，AVAssetExportSession 提 供 的 功能 更 单一 ， 接 口 
也 更 简单 。 该 API 只 能 按照 预 设 去 编码 文件 ， 而 不 能 指定 实际 的 码 率 以 
及 帧 率 等 细节 参数 ， 如 果 要 实现 这 个 功能 ， 则 只 能 通过 AVAssetReader 
和 AVAssetWriter 来 完成 。 所 以 在 我 们 的 工作 中 ， 不 同 的 场景 下 选用 不 
同 的 技术 实现 是 非常 重 要 的 ， 这 不 单单 会 影响 开发 的 效率 ， 还 会 直接 影 
学 习 iOS 平 台 多 媒体 的 开发 ， 了 解 这 些 API 是 非常 有 好 处 

















本 节 的 代码 示例 是 代码 仓库 中 的 VideoToolboxEncoder 工 程 ， 进 入 预 
览 界 面 之 后 点 击 编码 按钮 开始 编码 ， 点 击 停止 按钮 之 后 ， 编 码 结束 ， 然 
后 可 以 利用 Xcode 的 Devices 将 编码 之 后 的 H264 文 件 导 出 到 电脑 上 ， 最 后 
可 以 利用 ffplay 播 放 这 个 H264 文 件 ， 以 观看 效果 。 


当 使 用 ffplay 观 看 H264 文 件 的 时 候 ， 大 家 可 以 看 到 ， 刚 才 所 预览 的 
视频 现在 播放 的 速度 非常 决 ， 这 是 因为 裸 H264 的 流 是 没有 时 间 戳 概念 
的 ， 它 不 像 音频 那样 只 要 指定 好 采样 率 、 声 道 数 、 表 示 格式 ， 声 音 的 演 
染 端 就 可 以 以 固定 的 频率 来 泻 染 音频 数据 了 ， 虽 然 SS 和 PPS 中 也 指明 








了 视频 的 宽 、 高 以 及 fps 等 信息 ， 但 是 普通 的 播放 器 并 不 文 持 按照 一 定 
的 频率 进行 播放 ， 播 放 这 个 H264 文 件 的 时 候 也 没有 声音 ， 不 过 不 要 着 
惫 ， 第 7 章 中 将 会 完成 一 个 实例 一 一 视频 的 录制 App， 其 会 输出 一 个 完 
Un 视频 播放 的 时 候 会 按照 正常 的 速率 ， 当 然 声音 也 可 以 正常 播 
有 夏 。 














6.5 ”本章 小 结 


本 章 的 内 容 比 较 多 ， 涉 及 Android 和 iOS 两 个 平台 音 视频 的 采集 和 编 
码 ， 第 7 章 将 会 完成 一 个 视频 录制 的 应 用 ， 第 7 章 完 全 是 以 本 章 内 容 作 为 
基础 的 。 所 以 读者 在 学 习 本 章 的 时 候 可 以 放 慢 脚步 ， 深 入 学 习 ， 因 为 只 
有 充分 了 解 本 章 的 一 些 细节 ， 才 能 在 接 下 来 章节 的 学 习 中 更 加 游 也 有 
余 ， 同 时 在 日 常 工作 中 遇 到 问题 时 也 会 比较 容易 解决 。 























第 7 章 ”实现 一 球 视 频 录 制 应 用 


第 6 章 讲 解 了 音频 和 视频 的 采集 以 及 相应 的 编码 知识 ， 本 章 会 利用 
前 面 章节 的 基础 知识 完成 一 球 视 频 录制 的 应 用 ， 分 别 从 Android 和 iOS 两 
个 平台 进行 实现 ， 大 家 在 学 习 完 本 章 内 容 之 后 会 对 视频 录制 有 一 个 整体 
的 认识 ， 现 在 让 我 们 开始 吧 ! 





7.1 视频 录制 的 架构 设计 


本 节 先 来 看 一 下 视频 录制 的 架构 设计 ， 大 家 在 工作 中 完成 一 个 项 目 
或 者 产品 的 茶 一 个 兴 代 时 ， 首 先 应 该 根据 用 户 场 景 进行 设计 ， 这 里 所 说 
的 设计 绝 不 是 写 一 大 堆 设 计 文档 ， 而 是 对 功能 点 进行 拆 分 、 细 化 ， 然 后 
再 为 每 个 模块 找到 最 合理 的 实现 。 只 有 先 对 全 局 有 一 个 整体 的 认识 ， 才 
能 清楚 接 下 来 应 该 如 何 实现 每 一 个 模块 。 


下 面 分 析 一 下 需要 完成 的 场景 : 将 用 户 的 声音 和 画面 全 部 录制 下 
来 ， 生 成 一 个 MP4 文 件 ， 同 时 用 户 可 以 自己 选择 是 否 需 要 开局 背景 音 
乐 。 场 景 看 上 去 挺 简 单 ， 然 而 针对 这 些 场景 如 何 做 出 一 个 合理 的 架构 设 
计 却 是 一 项 比较 复杂 的 工作 ， 从 录制 视频 的 角度 来 讲 ， 每 个 平 全 都 有 自 
己 独 特 的 API 可 供 开 发 者 调用 ， 但 是 要 想 合 理 地 使 用 这 些 API， 还 得 将 
业务 场景 拆 分 为 技术 模块 ， 才 能 确定 其 实现 细节 。 基 于 业务 场景 分 析 ， 
该 应 用 可 拆 分 为 两 部 分 :一 部 分 是 音频 部 分 ， 一 部 分 古 夯 面部 分 。 基 于 
第 6 半 中 的 基础 知识 ， 可 以 先 对 首 频 做 出 以 下 架构 设计 ， 如 图 7-1 所 示 。 

乍 一 看 ， 可 能 会 觉得 这 个 架构 比较 复杂 ， 毕 竟 该 架构 图 〈( 见 图 7- 


1) 中 包含 了 两 个 平台 的 音频 架构 。 不 过 ， 大 家 不 要 着 急 ， 先 来 逐一 梳 
理 一 下 ， 等 分 析 结 束 之 后 ， 大 家 就 会 觉得 非常 清晰 明了 了 。 
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图 7-1 


先 从 高 层次 来 解读 这 张 架 构图 ， 图 7-1 的 最 上 面 的 那 一 部 分 ， 从 左 
到 右 依次 如 下 。 


第 一 个 模块 是 Input 模 块 ， 代 表 输 入 部 分 ， 第 一 个 输入 是 麦克 风 用 来 
采集 用 户 的 声音 ;为 外 一 个 输入 是 伴 答 文 件 解 码 保 ， 用 来 解码 用 户 选 择 
的 背景 音乐 ， 所 以 输入 部 分 将 由 这 两 部 分 共同 实现 。 


第 二 个 模块 是 Output， 代 表 输 出 模块 ， 第 一 个 输出 模块 就 是 利用 泻 
染 首 频 的 API 将 背景 疼 乐 的 声 首播 放出 来 ， 在 iOS 平 台 上 如 果 用 户 戴 者 耳 
机 的 话 ， 可 以 将 用 户 目 己 发 出 的 声音 同时 播放 出 来 ， 以 达到 耳 返 监听 的 
功能 ， 第 二 个 输出 模块 是 记录 数据 ， 需 要 将 背景 音乐 和 用 户 声音 的 数据 
保存 下 来 ; 那 保存 到 哪里 呢 ? 就 是 接 下 来 介绍 的 第 三 个 模块 。 


第 三 个 模块 是 PCM 队 列 ， 应 该 把 背景 首 乐 和 用 户 声音 的 PCM 数 据 
存 入 队列 中 ， 该 队列 应 该 能 够 保证 多 线程 访问 时 候 的 线程 安全 性 。 


最 后 一 个 模块 就 是 Consumer 模 块 ， 该 模块 负责 从 第 三 个 模块 的 队列 
里 面 取 出 音频 PCM 数 据 ， 进 行 音 频 AAC 的 编码 ， 并 且 最 终 封装 到 MP4 文 
件 中 ， 属 于 一 个 消费 者 的 角色 ， 所 以 我 们 称 之 为 消费 者 模块 。 


在 对 模块 进行 了 拆 分 之 后 ， 再 在 Android 和 iOS 平 台 上 确定 其 技术 实 
现 ， 对 应 到 每 一 个 平台 都 应 该 从 这 几 个 模块 来 进行 分 析 ， 确 定 应 该 使 用 
什么 技术 来 实现 模块 理应 完成 的 职责 。 


所 以 下 面 再 来 看 一 下 图 7-1 的 第 二 行 ，Android 平 台 的 实现 。 首 先是 
Input 模 块 ， 基 于 之 前 掌握 的 知识 我 们 知道 ， 对 于 音频 的 采集 需要 使 用 
AudioRecord 这 个 API 来 采集 用 户 的 声音 ， 同 时 需要 将 采集 出 的 音频 放 入 
第 三 个 模块 即 人 声 的 PCM 队 列 中 ， 对 于 提供 的 伴奏 文件 (MP3 格 式 或 者 
M4A 格 式 ) ， 可 以 利用 FFmpeg 写 一 个 伴奏 的 解码 器 ， 将 背景 音乐 文件 
解码 为 PCM 数 据 并 放 入 PCM 队 列 “〈 解 码 器 内 部 维护 的 队列 ) 中 ， 以 供 
后 续 的 播放 器 API 播 放 给 用 户 ; 然后 是 Output 模 块 ， 从 目前 来 讲 ， 在 
Android 设 备 上 对 于 耳 返 监听 的 功能 并 没有 一 个 特别 成 熟 的 方案 ， 所 以 
在 这 里 束 不 实现 Android 的 耳 返 功能 了 ， 但 是 必须 要 让 用 户 听 得 到 背景 
音乐 ， 所 以 我 们 使 用 AudioTrack 来 播放 前 面 解 码 好 的 伴奏 ， 同 时 把 播放 
的 伴奏 放 入 第 三 个 模块 中 的 伴奏 PCM 队 列 中 ;而 对 于 PCM 队 列 ， 可 以 
使 用 C++ 目 行 编写 一 个 线程 安全 的 链表 来 提供 先入 先 出 的 接口 以 完成 队 
列 的 功能 ， 并 且 为 了 性 能 考虑 ， 可 以 将 该 队列 改造 成 为 一 个 Blocking 
Queue 的 形式 ; 最 后 一 个 模块 是 Consumer 模 块 ， 即 开启 一 个 线程 在 后 台 
轮 询 伴奏 和 人 声 的 PCM 队 列 ， 取 出 伴奏 的 数据 和 人 声 的 数据 ， 合 并 

(Mix) 成 一 轨 音 频数 据 ， 利 用 MediaCodec 或 者 libfdk_aac 进 行 编码 ， 最 
终 利用 FFmpeg 的 Muxer 模 块 将 编码 后 的 AAC 数 据 封装 到 MP4 文 件 的 声音 
轨道 中 。 这 样 Android 平 台 上 的 技术 选 型 分 析 束 结束 了 ， 读 者 可 以 对 照 
架构 图 7-1 的 Android 部 分 梳理 一 下 。 


接 下 来 看 一 下 图 7-1 的 第 三 行 ，iOS 平 台 的 实现 ， 首 先是 Input 模 块 ， 
对 于 音频 的 采集 ， 应 该 使 用 RemoteIO 这 个 AudioUnit， 启 用 它 的 
InputElement 来 采集 人 声 数 据 ， 伴 委 的 播放 则 采用 第 4 章 中 掌握 的 知识 ， 
使 用 AudioFilePlayer 这 个 AudioUnit 进 行 解 码 伴奏 ， 然 后 使 用 一 个 Mixer 
的 AudioUnit 将 两 轨 声 音 Mix 起 来 ， 为 后 续 节 点 提供 输出 ; 其 次 是 Output 
模块 ， 这 里 使 用 RemoteIO 该 AudioUnit 的 OutputElement 将 MixerUnit 输 出 
的 音频 播放 给 用 户 听 ， 同 时 将 该 AudioUnit 注 册 一 个 回调 函数 ， 利 用 





























Converter 的 AudioUnit 转 换 为 SInt16 采 样 格式 表示 的 PCM 数 据 放 入 到 音频 
队列 中 ;， 第 三 是 PCM 队 列 模块 ， 可 以 使 用 C++ 目 行 编写 一 个 线程 安全 的 
链表 ， 提 供 先入 先 出 的 接口 以 完成 队列 的 功能 ， 并 且 为 了 性 能 考虑 ， 可 
以 将 该 队列 改造 成 为 一 个 Blocking ” Queue 的 形式 ， 而 该 队列 的 代码 可 以 
与 Android 平 台 共 享 一 份 代码 进行 使 用 ， 最 后 是 Consumer 模 块 的 实现 ， 
开启 一 个 线程 在 后 台 轮 询 PCM 队 列 ， 取 出 PCM 数 据 之 后 使 用 
AudioToolbox 或 者 libfdk_aac 进 行 编码 ， 最 后 利用 FFmpeg 将 编码 后 的 
AAC 数 据 封 装 到 MP4 文 件 的 声音 轨道 中 ， 这 个 模块 主要 是 使 用 C++ 语言 
调用 FFmpeg 的 API 来 实现 的 ， 所 以 可 以 与 Android 平 台 共 享 一 份 代码 。 
读者 可 以 对 照 架构 图 7-1 的 iOS 部 分 再 梳理 一 下 。 


音频 架构 就 为 大 家 分 析 到 这 里 ， 接 下 来 再 分 析 一 下 视频 部 分 的 架 


构 ， 如 图 7-2 所 示 。 
H264 队列 
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相 比 于 音频 的 架构 设计 ， 视 频 的 染 构 相对 更 简单 一 些 ， 可 以 看 到 图 
7-2 的 第 一 行 ， 也 是 拆 分 为 输入 、 输 出 、 队 列 和 消费 者 四 个 模块 ， 每 个 


模块 所 完成 的 功能 这 里 就 不 再 详细 的 斤 述 了 ， 相 信 读 者 可 以 很 直观 的 理 
解 ， 接 下 来 确定 一 下 各 个 模块 在 两 个 平台 的 技术 选 型 。 


对 于 Android 平 台 ， 本 书 的 第 6 章 已 经 开发 出 了 一 个 预览 和 编码 的 实 
例 ， 对 于 Input 模块 的 实现 ， 可 以 直接 使 用 Camera 这 个 API。 而 对 于 
Output 模 块 则 分 为 两 部 分 :一 部 分 是 预览 ， 通 过 使 用 EGL 和 OpenGL 并 
且 结 合 Java 层 的 SurfaceView 来 实现 ;另外 一 部 分 是 编码 ， 对 于 视频 的 编 
码 ， 优 先 使 用 硬件 编码 ， 如 果 存 在 兼容 性 问题 ， 则 使 用 libx264 软 件 编码 
作为 保底 的 方案 来 实现 ， 最 终 编码 成 为 H264 的 数据 。 与 第 6 章 的 案例 不 
同 的 是 ， 编 码 之 后 的 264 数 据 不 可 以 再 写 入 文件 ， 而 是 要 放 到 第 三 个 
模块 即 H264 的 队列 中 ， 对 于 H264 的 队列 ， 同 样 可 以 使 用 一 个 线程 安全 
的 链表 来 实现 ， 链 表 中 的 每 一 个 节点 元 素 都 是 H264 的 数据 包 。 最 后 一 
个 模块 是 消费 者 模块 ， 我 们 在 Consumer 这 个 模块 中 取出 队列 中 的 H264 
数据 包 利 用 FFmpeg 的 Mux 模 块 封装 到 MP4 的 视频 轨道 中 ， 其 恰好 与 之 前 
封装 到 该 文件 中 的 音频 轨道 组 成 一 个 完整 的 MP4 文 件 。 


在 iOS 平 台 上 ，put 模 块 的 实现 自然 会 使 用 系统 提供 给 开发 者 的 
Camera 这 个 API 来 实现 。Output 模 块 分 为 预览 和 编码 两 个 部 分 ， 其 实在 
第 6 章 中 已 经 开发 出 了 一 个 预览 和 编码 的 实例 ， 预 览 的 实现 直接 使 用 
EAGL 和 OpenGL 再 结合 自 定 义 的 一 个 UIView 来 完成 ; 编码 的 实现 则 使 
用 VideoToolbox 进 行 硬件 编码 ， 不 同 于 第 6 章 实 例 的 是 ， 编 码 之 后 的 
H264 数 据 不 要 直接 写 入 文件 中 ， 而 是 应 该 放 到 H264 的 队列 中 。 所 以 第 
三 个 模块 就 是 H264 队 列 模块 ， 对 于 H264 的 队列 ， 可 以 使 用 一 个 线程 安 
全 的 链表 来 实现 ， 链 表 中 的 每 一 个 节点 元 素 都 是 H264 的 数据 包 ， 该 模 
块 的 实现 可 以 与 Android 平 台 共 享 一 份 代 码 。 最 后 一 个 模块 是 消费 者 模 
块 ， 从 Consumer 模 块 取 出 队列 中 的 H264 数 据 包 ， 然 后 利用 FFmpeg 的 
Mux 模 块 封 装 到 MP4 的 视频 轨道 部 分 ， 正 好 与 之 前 封装 到 访 文 件 中 的 音 
频 轨 道 共 同 组 成 一 个 完整 的 MP4 文 件 ， 该 模块 主要 使 用 C++ 语言 调用 
FFmpeg 的 API 来 实现 ， 所 以 可 以 与 Android 平 台 共 享 一 份 代 码 。 


其 实 ， 通 过 上 述 的 分 析 不 难看 出 来 ， 在 队列 的 实现 部 分 以 及 
Consumer 部 分 ， 两 个 平台 的 实现 是 一 模 一 样 的 ， 所 以 可 以 将 这 部 分 代码 
抽象 出 来 的 统一 接口 ， 使 用 C++ 语 言 来 完成 ， 共 同 运 行 在 两 个 平台 之 
上 ， 这 样 做 不 仅 可 以 提升 开发 效率 还 能 够 降低 维护 成 本 。 上 述 的 架构 设 
计 阶 段 还 缺少 风险 分 析 ， 对 于 整个 染 构 的 风险 分 析 来 说 ， 主 要 是 人 硬件 编 
码 器 的 兼容 性 问题 ， 以 及 如 果 在 Android 平 台 使 用 软件 编码 器 的 话 ， 软 
件 编码 器 的 性 能 问题 ， 还 有 一 个 风险 就 是 音 视 频 是 分 开采 集 的 ， 是 否 会 















































存在 音 视 频 同步 的 问题 。 对 于 测试 用 例 来 说 ， 在 测试 完 APP 定 位 的 主流 
机 型 和 主流 系统 之 后 ， 可 以 针对 于 iOS 8.0 系 统 以 及 Android 4.3 系 统 来 做 
一 个 边缘 测试 ， 因 为 硬件 编码 的 API 都 是 以 这 两 个 版 本 的 系统 为 基础 开 
放 给 开发 者 的 。 接 下 来 的 每 一 节 均 将 会 完成 一 个 模块 的 代码 实现 ， 本 章 
最 终 会 按照 整体 架构 图 实现 一 个 完整 的 系统 。 





7.2 ” 首 频 模块 的 实现 


本 布 会 基于 第 6 章 的 音频 采集 代码 继续 开发 ， 与 第 6 草 不 同 的 是 ， 这 
里 采集 的 首 频 数据 需要 放 入 队列 中 ， 而 不 是 写 入 文件 。 本 市 首先 来 介绍 
首 频 队列 的 实现 ， 然 后 在 Android 平 台 和 iOS 平 台 分 别 给 出 具体 的 实现 ; 
由 于 第 6 半 中 对 于 具体 如 何 采 和 集 首 频 已 经 介绍 得 非常 详细 了 ， 所 以 本 市 
会 俩 重 于 如 何 将 采集 的 数据 放 入 队列 中 ， 以 及 如 何 播放 背景 音乐 。 




















7.2.1 ”音频 队列 的 实现 

无 论 是 Android 平 台 还 是 iOS 平 台 ， 所 使 用 的 音频 队列 都 是 一 致 的 ， 
使 用 C++ 来 实现 一 个 音频 队列 ， 就 可 以 保证 在 两 个 平台 上 可 以 共同 使 
用 。 下 面 来 看 一 下 这 个 队列 的 具体 实现 。 


首先 ， 确 定 该 队列 中 存放 的 元 素 ， 结 构 体 定义 如 下 : 








typedef struct AudioPacket { 
Short * buffer 
Int size; 
AudioPacket() { 
buffer = NULL; 
size = 0; 


} 
~AudioPacket() { 
if (NULL != buffer) { 
delete[] buffer; 
buffer = NULL; 


} 


} 
} AudioPacket; 





该 结构 体 定义 了 一 个 AudioPacket， 每 采集 一 段 时 间 的 PCM 音 频数 
据 ， 就 封装 成 为 一 个 这 样 的 结构 体 对 象 ， 然 后 放 入 到 PCM 队 列 中 。 这 里 
提 到 的 队列 是 线程 安全 的 队列 ， 可 以 自行 编写 一 个 链表 来 实现 队列 的 功 
能 ， 链 表 节 点 的 元 素 定义 如 下 : 





typedef struct AudioPacketList { 
AudioPacket *pkt; 
struct AudiopacketList *next; 
AudioPacketList(){ 
pkt = NULL 
next = NULL; 


} 
} AudioPacketList,; 








可 在 上 述 队列 中 定义 一 个 mFirst 节 点 来 指向 头 部 结 点 ， 定 义 一 个 
mLast 节 点 指向 尾部 节点 ， 为 了 保证 线程 的 安全 性 ， 需 要 定义 以 下 两 个 


变量 ， 








pthread mutex_t mLock; 
pthread _ cond t mCondition; 





该 队列 提供 了 两 个 最 重要 的 接口 ， 分 别 是 push 和 pop， 下 面 分 别 定 
义 为 put 和 get 方 法 ， 代 码 如 下 : 





int put(AudioPacket* audioPacket); 





在 put 方 法 的 实现 中 ， 首 先 会 判断 是 否 abort 了 该 队列 ， 如 果 abort 了 

则 代表 队列 不 再 需要 操作 ， 直 接 返 回 ， 如 果 不 是 abort 状 态 ， 那 么 需要 将 
客户 端 代码 封装 好 的 AudioPacket 实 例 组 装 成 一 个 链表 节点 放 入 链表 中 。 
当然 为 了 保证 线程 的 安全 性 ， 在 放 入 链表 的 过 程 中 要 先 上 锁 ， 然 后 操作 
链表 。 在 放 入 链表 结束 之 后 发 出 一 个 signal 指 令 ， 因 为 get 方 法 是 有 可 能 
被 block 的 (由 于 这 里 实现 的 是 一 个 Blocking Queue) ， 所 以 要 通过 发 送 
ns 的 线程 可 以 继续 从 队列 中 获取 元 素 ， 最 后 释放 
类。 代码 如 下 : 





if (mAbortRequest) { 
delete pkt; 
return -1; 


} 
AudioPacketList *pkt1 = new AudiopacketList(); 
if (!pkt1) 
return -1; 
pkt1->pkt = pkt; 
pkt1->next = NULL 
pthread mutex_lock(&mLock); 
If (mLast == NULL) { 
mFirst = pkt1; 
} else { 
mLast->next = pkt1， 


mLast = pkti1; 

pthread cond_ signal(&mCondition); 
pthread mutex_unlock(&mLock); 
return 0; 








下 面 是 该 队列 提供 的 get 接 口 ， 方 法 原型 如 下 : 





int get(AudioPacket **audioPacket ) ; 





该 get 方 法 主要 实现 将 mFirst 指 向 的 节点 拿 出 来 返回 给 客户 端 代码 ， 
并 且 将 mFirst 指 回 它 的 下 一 级 节点 ， 如 果 当 前 队列 为 空 则 block 住 “用 来 
实现 Blocking Queue) get 方 法 ， 等 待 有 元 素 再 放 进 来 或 者 abort 该 队列 之 


后 才 会 返回 ， 实 现代 码 如 下 : 





AudioPacketList *pkt1; 
int ret = 0; 
pthread mutex_lock(&mLock); 


for (;;) 芋 
if (mAbortRequest) { 
ret = -1; 
break; 


pkt1 = mFirst,; 
If (pkt1) { 
mFirst = pkt1i->next; 
if (!mFirst) 
mLast = NULL; 
mNbPackets--， 
*pkt = pkt1i->pkt; 
delete pkt1; 
pkt1 = NULL; 
ret = 1; 
break; 
else { 
pthread_cond wait(&mCondition, &mLock); 
} 


pthread mutex_unlock(&mLock); 
return ret; 





现在 ， 最 核心 的 两 个 方法 已 经 全 部 实现 了 ， 剩 下 的 就 是 abort 方 法 
了 ， 该 方法 需要 将 布尔 型 变量 mAbortRequest 设 置 为 tue， 并 且 同 时 要 发 
送 一 个 signal 指 令 ， 以 防止 列 的 线程 会 被 block 在 获取 数据 的 接口 中 《〈 即 
get 方 法 中 ) 。 还 有 一 个 销毁 方法 ， 束 是 壳 历 队列 中 所 有 的 元 素 ， 然 后 
释放 它们 。 人 至 此 队列 实现 就 完成 了 ， 读 者 可 以 到 代码 目录 中 去 查看 一 下 
源码 ， 对 比 进行 分 析 。 








7.2.2” Android 平台 的 实现 


本 节 将 完成 Android 平 台 上 Input 模 块 的 实现 ， 相 关 的 基本 代码 在 第 6 
章 中 已 经 实现 过 了 ， 本 节 会 根据 当前 的 整个 项 目 做 一 下 结构 调整 ， 最 重 
要 的 是 ， 这 里 要 添加 上 背景 音乐 ， 这 在 之 前 的 第 4 章 中 也 有 过 介绍 ， 所 
以 本 节 就 将 它们 综合 运用 起 来 ， 最 终 将 采集 到 的 人 声 和 解码 的 背景 音乐 
的 两 部 分 PCM 音 频数 据 分 别 入 队 。 结 构图 如 图 7-3 所 示 。 
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1. 伴 答 的 解码 与 播放 


因为 要 为 录制 的 视频 增加 背景 首 乐 ， 所 以 这 里 又 要 回 到 伴 和 的 解码 
与 播放 中 ， 第 4 章 中 已 经 实现 过 伴奏 的 解码 与 播放 ， 所 以 这 里 将 基于 第 4 
章 的 项 目 继续 进行 开发 。 


先 来 回顾 一 下 第 4 章 中 播放 右 是 如 何 工 作 的 ， 首 先 ， 基 于 FFmpeg 建 
立 一 个 伴 导 的 解码 器 ， 然 后 建立 一 个 解码 控制 器 来 开局 一 个 线程 不 断 地 





调用 解码 器 ， 解 码 出 来 的 音频 数据 将 放 入 队列 之 中 ， 当 队列 元 素 达 到 一 
个 阀 值 的 时 候 束 暂停 解码 ， 如 果 收 到 signal 指 令 就 继续 调用 解码 器 解 

人 码 ， 同 时 解码 控制 右 将 为 客户 端 提 供 一 个 readSamples 方 法 ， 该 方法 的 实 
现 中 ， 会 不 断 地 从 队列 中 获取 解码 好 的 伴奏 PCM 数 据 并 返回 给 客户 端 ， 
此 外 ， 它 还 会 监测 队列 的 大 小 ， 当 队列 中 元 素数 目 小 于 某 个 国 值 的 时 
候 ， 发 送 一 个 signal 指 令 让 解码 线程 继续 工作 ;接着 客户 端 将 使 用 
AudioTrack 作 为 播放 PCM 数 据 的 播放 器 ， 客 户 端 会 创建 一 个 播放 器 线 
程 ， 从 而 不 断 地 调用 解码 控制 器 的 readSamples 方 法 ， 最 后 将 获取 出 来 的 
PCM 数 据 提 供给 AudioTrack 进 行 播放 ; 当 停 止 播放 的 时 候 ， 首 先 停止 解 
码 控制 器 ， 然 后 停止 并 释放 AudioTrack 的 资源 ， 这 就 是 播放 器 的 流程 。 
总 体 来 摘 述 就 是 ， 解 码 控制 器 中 的 解码 线程 作为 生产 者 将 解码 的 PCM 数 
据 放 入 到 一 个 解码 队列 当中 ， 而 在 客户 端 中 ，AudioTrack 上 所 在 的 播放 线 
程 则 作为 消费 者 (调用 readSamples 方 法 ) ， 不 断 地 从 解码 队列 中 拿 出 
PCM 数 据 播放 给 用 户 。 


在 当前 场景 之 下 ， 除 了 让 用 户 可 以 昕 到 伴奏 ， 同 时 还 需要 将 用 户 听 
到 的 伴 稚 存 储 下 来 ， 所 以 首先 要 修改 初始 化 方法 ， 在 初始 化 方法 中 需要 
添加 一 个 伴奏 音频 队列 的 初始 化 。 注 意 该 队列 和 上 述 的 解码 队列 不 是 同 
一 个 队列 ， 解 码 队 列 会 作为 解码 线程 和 播放 器 这 一 对 生产 者 和 消费 者 之 
间 的 桥梁 ， 而 这 里 的 队列 是 指 以 播放 器 作 为 生产 者 ，Consumer 模 块 的 编 
码 线程 作为 消费 者 ， 所 以 该 队列 是 这 两 个 模块 之 间 的 桥梁 。 为 了 全 局 都 
可 以 访问 到 该 队列 ， 需 要 将 所 有 队列 都 放 到 一 个 单 例 模式 设计 的 池子 
中 ， 初 始 化 两 个 队列 的 代码 如 下 : 














packetPool = LiveCommonPacketPool: :GetInstance( ); 
packetPool->initDecoderAccompanyPacketQueue( ) ; 
packetPool->initAccompanyPacketQueue(sampleRate, CHANNEL ) ， 


接 下 来 要 修改 readSamples 方 法 ， 因 为 该 方法 不 再 只 是 为 上 层 的 播放 
器 PCM 提 供 数 据 ， 同 时 也 是 第 三 个 模块 的 伴奏 音 频 队列 的 生产 者 ， 职 贡 
发 生 了 变化 ， 所 以 需要 将 该 解码 控制 器 中 的 方法 名 readSamples 修 改 为 
readSamplesAndProducePacket， 在 方法 的 实现 中 ， 将 该 伴 委 的 
AudioPacket 中 的 数据 复制 到 客户 端 之 后 ， 不 要 删除 该 伴 夺 的 
AudioPacket， 而 是 直接 将 它 放 入 伴 堆 音频 队列 之 中 。 代 码 如 下 : 





packetPool->pushAccompanyPacketToQueue(accompanyPacket ) ; 


这 样 就 把 第 4 章 中 的 音频 播放 圳 项目 适 配 到 我 们 的 系统 之 中 了 ， 是 
不 是 很 简单 呢 ? 读者 可 以 到 代码 仓库 中 找到 代码 从 头 再 分 析 一 过 。 


第 6 章 中 直接 把 AudioRecord 采 集 出 来 的 音频 写 到 文件 中 去 了 ， 但 是 
在 当前 的 场景 下 是 不 能 够 直接 写 文件 的 ， 而 是 应 该 放 到 人 声 的 PCM 队 列 
之 中 ， 所 以 要 在 Native 层 新 建立 一 个 RecordProcessor 类 ， 主 要 负责 维护 
人 声 的 采集 以 及 声音 的 编码 线程 。 下 面 来 看 一 下 这 个 类 中 的 方法 及 其 实 
现 ， 首 先是 初始 化 方法 : 














void initAudioBufferSize(int sampleRate, int audioBufferSize ) 








该 方法 主要 是 将 采样 率 以 及 队列 中 每 一 个 元 素 的 大 小 作为 参数 传 入 
进来 ， 在 该 方法 的 实现 中 ， 首 先 将 这 两 个 参数 赋值 给 全 局 变量 ， 并 且 按 
照 audioBufferSize 分 配 一 块 audioBuffer 的 存储 空间 ， 用 于 积攒 采集 到 的 
音频 数据 ， 最 后 构造 出 编码 器 ， 并 且 初 始 化 这 个 编码 右 ， 编 码 器 模块 将 
在 7.2.3 节 中 进行 实现 。 


接 下 来 再 看 第 二 个 方法 ， 该 方法 用 于 积攒 本 来 要 在 Java 层 写 入 文件 
的 PCM 的 Buffer， 并 且 将 其 放 入 队列 中 。 为 什么 要 积攒 昵 ? 因为 在 不 同 
的 设备 上 Java 层 的 AudioRecorder 每 次 采集 出 来 的 buffer 其 大 小 有 可 能 是 
不 同 的 ， 所 以 要 在 该 方法 内 部 做 一 个 积 斤 ， 当 积 提 到 初始 化 方法 中 设 定 
的 audioBufferSize 时 ， 再 将 这 一 段 buffer 构 造成 为 一 个 AudioPacket， 然 后 
放 入 到 人 声 队 列 中 ， 下 面 先 来 看 一 下 积攒 的 逻辑 ， 代 人 码 如 下 : 

















void pushAudioBufferToQueue(short* samples, int size) { 
int samplesCursor = 0; 
int samplesCnt = size; 
while (samplescnt > 0) { 

If ((audioSamplesCursor + samplesCnt) < audioBufferSize) { 
cpyToAudioSamples(samples + samplesCursor, samplescnt); 
audioSamplesCursor += samplescnt,; 
samplesCursor += samplescnt; 
samplesCcnt = 0; 

} else { 
int subFullSize = audioBufferSize - audioSamplesCursor; 
cpyToAudioSamples(samples + samplesCursor, subFullSize); 
audioSamplesCursor += subFullSize; 
samplesCursor += subFullSize,; 
samplesCnt -= subFullSize,; 
flushAudioBufferToQueue( ); 








对 这 段 代 人 码 的 分 析 有 具体 如 下 ， 首 先 定 义 一 个 游标 来 表示 访问 到 
samples 这 个 buffer 的 哪个 位 置 ， 然 后 进入 一 个 循环 ， 将 该 buffer 的 数据 全 
都 拷贝 出 来 ， 直 到 全 部 都 使 用 完毕 了 再 退出 这 个 循环 ， 循 环 内 部 首先 会 
判断 在 全 局 的 audioBuffer 中 是 否 有 足够 的 空间 用 来 存放 该 buffer 的 有 效 
数据 〈 就 是 buffer 中 还 没 被 取出 来 的 数据 ) ， 如 果 可 以 存放 ， 则 将 有 效 
数据 全 部 都 拷贝 到 全 局 audioBuffer 中 ， 然 后 对 全 局 的 audioBuffer 的 游标 
和 当前 buffer 的 游标 增加 对 应 的 数值 ， 将 sampleCnt 设 置 为 0， 表 示 当 前 
buffer 使 用 完毕 ， 如 果 全 局 的 audioBuffer 存 放 不 了 的 话 ， 那 么 就 先 计算 
出 全 局 的 audioBuffer 还 能 存放 多 少 ， 代 码 如 下 : 





int subFullSize = audioBufferSize - audioSampJesCursor 





上 述 代 码 可 实现 将 subFullSize 个 sample 从 当前 buffer 中 拷贝 到 全 局 的 
audioBuffer 中 去 ， 然 后 将 全 局 audioBuffer 对 应 的 游标 增加 subFullSize， 
将 当前 buffer 的 有 效 采 样 数目 减 去 这 个 subFullSize， 最 后 再 把 全 局 的 
audioBuffer 封 装 成 为 一 个 AudioPacket 放 入 人 声 队 列 中 。 将 audioBuffer 封 
装 为 AudioPacket， 并 且 放 入 队列 中 的 代码 如 下 : 





Short* packetBuffer = new short[audioSamplesCursor]; 
memcpy(packetBuffer，audioSampJes，audioSampJesCursor * sizeof(short)); 
AudioPacket * audioPacket = new AudioPacket(); 

audioPacket->buffer = packetBuffer,; 

audioPacket->size = audioSamplesCursor,; 
packetPool->pushAudioPacketToQueue(audioPacket ) ; 





上 述 代 码 就 是 flushAudioBufferToQueue 方 法 的 具体 实现 ， 实 际 上 就 
是 分 配 一 个 新 的 内 存 空间 ， 将 全 局 变量 audioBuffer 的 内 容 找 贝 进去 ， 然 
后 封装 成 AudioPacket， 最 终 放 入 到 队列 中 。 


该 类 的 最 后 一 个 方法 就 是 销毁 方法 ， 该 方法 的 实现 非常 简单 ， 首 先 
要 释放 掉 在 初始 化 方法 中 分 配 的 全 局 audioBuffer 这 块 内 存 ， 然 后 需要 调 
用 编码 器 的 销毁 方法 ， 最 终 再 释放 编码 井 这 个 类 。 


至 此 就 完成 了 伴奏 和 人 声 入 队 的 操作 ， 读 者 如 果 想 了 解 全 部 的 代码 
可 以 在 代码 仓库 中 参考 对 应 的 代码 。 


7.2.3 ”iOS 平台 的 实现 


本 节 要 完成 iOS 平 台 的 首 频 采集 与 伴 稚 播放 ， 同 时 将 采集 的 人 声 
PCM 数 据 和 播放 的 伴奏 PCM 数 据 合 并 《Mix) 成 一 轨 PCM 数 据 ， 并 存 入 
队列 中 ， 人 声 的 采集 在 第 6 章 中 已 经 有 了 具体 的 实现 ， 并 且 直 接 编码 到 
磁盘 的 文件 中 去 了 ， 伴 奏 的 播放 在 第 4 章 中 也 有 过 实现 ， 本 节 会 基于 这 
两 个 实例 加 以 改造 ， 来 满足 当前 系统 的 需求 。 


1. 伴 委 的 解码 与 播放 


第 4 章 介 绍 的 播放 器 有 两 种 实现 方式 ， 第 一 种 是 使 用 AudioFilePlayer 
这 个 AudioUnit 再 加 上 RemoteIO 来 播放 伴奏 。 还 记得 第 6 章 中 曾经 提 到 
过 ， 有 一 个 MixerUnit 是 为 了 后 续 扩 展 使 用 的 吗 ? 扩展 的 地 方 束 在 这 里 
了 ， 就 是 将 第 4 章 中 提 到 的 AudioFilePlayer 的 AudioUnit 也 连接 上 
MixerUnit， 这 样 用 户 听 到 的 就 是 伴奏 和 人 声 Mix 到 一 块 的 声音 了 ， 结 构 
如 图 7-4 所 示 。 
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图 7-4 


本 节 将 重点 来 看 一 下 伴奏 的 解码 以 及 其 与 MixerUnit 的 连接 操作 ， 
具体 的 入 队 操 作 将 会 在 第 2 个 小 节 中 介绍 。 下 面 将 基于 第 6 章 中 的 
AudioRecorder 录 音 实 例 继续 进行 开发 ， 首 先 从 构造 AUGraph 的 类 中 找到 
方法 addAudioUnitNodes， 添 加 以 下 代码 ; 





AudioComponentDescription playerDescription; 

bzero(&playerDescription, sizeof(playerDescription)); 
playerDescription.componentManufacturer = kAudioUnitManufacturer_Apple; 
playerDescription.componentType = kAudioUnitType_Generator; 
playerDescription.componentSubType = kAudioUnitSubType_AudioFilePlayer; 
AUGraphAddNode(_auGraph，&playerDescription，&mPlayerNode ) ， 





上 述 代码 的 含义 其 实 就 是 向 AUGraph 中 加 入 AudioFilePlayer 这 个 


AUNode， 然 后 在 get-UnitsFromNode 方 法 中 加 入 以 下 代码 : 





AUGraphNodeInfo(mPlayerGraph, mpPlayerNode, NULL, &mPlayerUnit); 





上 述 代 码 是 找 出 mPlayerNode 这 个 AUNode 对 应 的 AudioUnit， 并 赋 
值 给 全 局 变量 mPlayer-Unit， 以 方便 后 续 设 置 参 数 。 然 后 在 
setUnitProperties 方 法 的 最 后 一 行为 新 找 出 来 的 Audio-Unit 设 置 声音 格 
式 : 





AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_StreamFormat, 
kAudioUnitScope_ Output, 0, & clientFormat32float, 
sizeof(_clientFormat32float)); 








下 一 步 就 将 该 mPlayerUnit 连 接 到 Mixer 上 ， 首 先 需 要 更 改 Mixer 这 个 
AudioUnit 的 输入 Unit 的 数目 ， 即 将 在 该 函数 中 定义 的 局 部 变量 
mixerElementCount 更 改 为 2， 代 表 有 两 路 输入 要 给 到 Mixer 这 个 
AUNode。 由 于 现在 新 增 的 这 个 Player 的 AUNode 在 整个 AUGraph 中 还 是 
独立 存在 的 ， 所 以 要 将 该 AUNode 连 接 到 mixerNode 的 bus 为 1 的 输入 端 ， 
代码 如 下 : 





AUGraphConnectNodeInput(_auGraph, mPlayerNode, 0, _mixerNode, 1); 





在 执行 完 AUGraphInitialize 方 法 之 后 ， 要 为 Player 这 个 AudioUnit 配 
置 参数 ， 配 置 过 程 如 下 ， 首 移 客 户 端 代 码 将 需要 播放 的 本 地 伴 委 路 径 传 
递 过 来 ， 将 其 设置 为 全 局 变量 playPath， 所 以 首先 需要 将 想 要 播放 的 文 
件 设置 给 Player Unit， 代 码 如 下 : 





AudioFileID musicFile,; 

CFURLRef songURL = (_ bridge CFURLRef) _pJayPath ; 

AudioFileOpenURL(songURL, kAudioFileReadPermission, 0, &musicFile); 

AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_ 
ScheduledFileIDs, kAudioUnitScope_ Global, 0, &musicFile, 
sizeof (musicFile)); 





紧 接着 来 看 一 个 对 于 AudioFilePlayer 这 个 AudioUnit 来 说 非常 重要 的 
概念 ， 即 Scheduled-AudioFileRegion， 该 结构 体 是 AudioToolbox 里 面 提 
供 的 一 个 结构 体 ， 从 名 字 上 来 看 即 可 知道 ，Scheduled Audio File Region 
是 对 于 AudioFile 进 行 访问 计划 的 区 域 ， 其 实 该 结构 体 就 是 用 来 控制 





AudioFilePlayer 的 ， 结 构 体 里 面 可 以 设置 的 内 容 具 体 如 下 。 
-mAudioFile: 设置 为 要 播放 的 音频 文件 的 AudioFileID 。 


:mFramesToPlay: 要 播放 的 音频 帧 数目 ， 可 以 通过 获取 要 播放 的 
AudioFile 的 Format 以 及 总 的 Packet 数 目 来 计算 。 


-mLoopCount: 用 来 设置 循环 播放 的 次 数 。 


mStartTime: 用 来 设置 开始 播放 的 时 间 ， 拖 动 (Seek) 操作 就 是 通 
过 这 个 参数 来 设置 的 。 


-mCompletionProc: 用 来 设置 音频 播放 完成 之 后 的 回调 函数 。 
:mCompletionProcUserData: 用 来 设置 回调 函数 的 上 下 文 。 


在 配置 好 该 结构 体 之 后 ， 将 它 设 置 给 AudioFilePlayer 这 个 Unit: 





AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_ScheduledFileRegion, 
kAudioUnitScope_ Global, 0,&rgn, sizeof(rgn)) 





最 后 给 出 AudioFilePlayer 的 最 后 一 部 分 配置 : 





UInt32 defaultVal = 0; 

AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_ScheduledFilePrime, 
kAudioUnitScope Global, 0, &defaultVal, sizeof(defaultVal)); 

AudioTimeStamp startTime; 

memset (&startTime, ©, sizeof(startTime)); 

startTime.mFlags = kAudioTimeStampSampleTimeValid; 

startTime.mSampleTime = -1; 

AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_ScheduleStartTimeStamp, 
kAudioUnitScope_ Global, 0, &startTime, sizeof(startTime)); 





注意 该 配置 过 程 必 须 在 AUGraph 初 始 化 之 后 ， 否 则 是 不 生效 的 ， 
为 在 构造 的 AUGraph 初 始 化 之 后 才 会 初始 化 AudioFilePlayer 这 个 
AudioUnit， 上 所 以 配置 放 到 这 个 位 置 所 设置 的 参数 才 是 有 效 的， 否则 束 
是 无 效 的 ， 这 与 将 AUGraph 中 的 AUNode 找 出 来 赋值 给 AudioUnit 非 常 类 
似 ， 如 果 没 有 打开 AUGraph 的 话 ， 束 相当 于 这 个 Graph 里 面 的 AUNode 还 
没有 被 实例 化 ， 我 们 也 不 可 能 找 出 所 对 应 的 AudioUnit。 


在 播放 的 过 程 中 ， 可 以 通过 获取 


kAudioUnitProperty_CurrentPlayTime 来 得 到 相对 于 所 设置 的 开始 时 间 的 
播放 时 长 ， 从 而 计算 出 当前 播放 到 的 位 置 。 


正确 配置 播放 融 的 时 机 是 最 重要 的 ， 有 具体 的 配置 信息 比较 简单 ， 大 
家 可 以 对 照 整个 项 目 中 的 这 一 块 代码 示例 来 梳理 一 过 。 


2. 首 频 入 队 


第 6 章 中 已 经 使 用 过 RemoteIO 这 个 AudioUnit 来 采集 音频 ， 然 后 直接 
编码 到 文件 中 ， 本 节 不 能 直接 写 入 文件 中 ， 而 是 封装 成 AudioPacket， 然 
后 放 入 队列 中 ， 首 先 找 到 为 RemoteIO 设 置 的 回调 函数 ， 在 这 里 ， 我 们 之 
前 的 操作 是 从 前 一 级 MixerNode 中 取出 数据 ， 然 后 写 文件 ， 去 掉 该 函数 
中 关于 写 文件 的 所 有 操作 ， 然 后 将 取出 来 的 数据 封装 成 为 AudioPacket 并 
放 入 到 队列 中 ， 但 是 队列 中 要 求 的 PCM 格 式 是 SInt16 格 式 的 数据 ， 而 从 
MixerNode 中 取出 来 的 格式 是 Float32 格 式 的 数据 ， 那 么 如 何 进 行 转换 
呢 ? 答案 非常 简单 ， 应 该 是 使 用 Convert-Node， 其 整体 流程 具体 如 下 。 


第 一 步 ， 先 在 MixerNode 后 面 添 加 上 一 个 Float32 转 换 为 SInt16 的 
ConvertNode， 但 是 ， 要 直接 将 该 ConvertNode 连 接 到 RemoteIO 的 输出 端 
实际 上 是 不 可 以 的 ， 因 为 SInt16 的 表示 格式 和 RemoteIO 要 求 的 输入 格式 
不 匹配 ， 所 以 需要 在 该 ConvertNode 之 后 再 添加 一 级 ConvertNode， 用 于 
将 SInt16 格 式 转换 为 Float32 格 式 ， 然 后 将 第 二 个 ConvertrNode 连 接 到 原来 
的 RemoteIO 之 上 ， 这 样 改造 之 后 就 可 以 形成 当前 场景 下 的 AUGraph 了。 
对 于 数据 的 获取 ， 可 以 在 第 一 个 ConvertNode 对 应 的 Unit 上 添加 一 个 
RenderNotify 回 调 函 数 ， 在 函数 中 将 数据 封装 为 AudioPacket 并 送 入 队 
列 。 这 束 是 整个 流程 ， 我 们 来 共同 实现 一 下 。 


首先 构建 Float32 转 换 SInt16 的 ConvertrNode， 代 码 如 下 : 

















AudioComponentDescription convertDescription; 

bzero(&convertDescription, sizeof(convertDescription)); 
convertDescription.componentManufacturer = kAudioUnitManufacturer_Apple; 
convertDescription.componentType = kAudioUnitType_FormatConverter; 
convertDescription.componentSubType = kAudioUnitSubType_AUConverter,; 
AUGraphAddNode(_auGraph, &convertDescription, & c32fTo16iNode); 





然后 取出 该 AUNode 对 应 的 AudioUnit， 分 别 构 造 Float32 的 Format 与 
SInt16 的 Format， 然 后 将 这 两 个 Format 分 别 设置 给 AudioUnit 的 输入 和 输 





AudiouUnitSetProperty(_c32fTo16iUnit， 
kAudioUnitProperty_StreamFormat, kAudioUnitScope_ Output, 0, 
&c16iFmt, sizeof(c1i6iFmt)); 

AudioUnitSetProperty(_c32fTo16iUnit, 
kAudioUnitProperty_StreamFormat, kAudioUnitScope_Input, 0, 
&c32fFmt, sizeof(c32fFmt)); 





这 里 为 该 ConvertNode 的 AudioUnit 增 加 了 一 个 RenderNotify， 注 意 这 
里 设置 的 Render-Notify 和 之 前 设置 的 InputCallback 是 不 一 样 的 : 
InputCallback 是 当下 一 级 节点 需要 数据 的 时 候 将 会 调用 的 方法 ， 让 配置 
的 这 个 方法 来 填充 数据 ;但 是 RenderNotify 是 不 同 的 调用 机 制 ， 
RenderNotify 是 在 这 个 节点 从 它 的 上 一 级 节点 获取 到 数据 之 后 才 会 调用 
该 函数 ， 可 以 让 开发 者 做 一 些 额 外 的 操作 《比如 音频 处 理 或 者 编码 文件 
， 所 以 在 这 个 场景 下 使 用 RenderNotify 这 个 方法 会 更 合理 ， 代 码 设 
置 如 下 : 














AudioUnitAddRenderNotify(c32fT016iUnit, &mixerRenderNotify, 
( bridge void *)self); 





在 mixerRenderNotify 这 个 回调 函数 中 ， 拿 到 的 PCM 数 据 就 是 SInt16 
ee 之 后 将 PCM 数 据 封 装 成 为 AudioPacket 并 放 入 到 音频 队列 
， 代 码 如 下 : 





AudioBuffer buffer = ioData->mBuffers[0]; 

int sampleCount = buffer.mDataByteSize / 2; 

Short *packetBuffer = new short[sampleCount]; 
memcpy(packetBuffer, buffer.mData, buffer.mDataByteSize),; 
AudioPacket *audioPacket = new AudioPacket(); 
audioPacket->buffer = packetBuffer,; 

audiopPacket->size = buffer.mDataByteSize / 2; 
packetPool->pushAudioPacketToQueue(audioPacket ) ; 





接 下 来 ， 我 们 来 构建 将 SInt16 格 式 转换 为 Float32 格 式 的 
ConvertNode， 构 建 AUNode 的 方法 和 之 前 是 一 样 的 ， 但 设置 的 参数 和 之 
前 恰好 是 相反 的 ， 代 码 如 下 : 





AudioUnitSetProperty(_c1i6iTo32fUnit, kAudioUnitProperty_StreamFormat, 
kAudioUnitScope Output, ©0, &c32fFmt, sizeof(c32fFmt)); 

AudioUnitSetProperty(_c1i6iTo32fUnit, kAudioUnitProperty_StreamFormat, 
kAudioUnitScope_Input, 0, &c1i6iFmt, sizeof(c1i6iFmt)); 





最 后 将 c32fTol6iNode 连 接 上 cl6iTo32fNode， 将 cl6iTo32fNode 连 接 
到 RemoteIO 上 并 进行 播放 ， 代 码 如 下 : 





AUGraphConnectNodeInput(_auGraph, _c32fTo1i6iNode, ©0, _c1i6iTo32fNode, 0); 
AUGraphConnectNodeInput(_auGraph, _ci6iTo32fNode, 0, _ioNode, 0); 





通过 上 述 的 一 系列 改造 ， 可 以 将 PCM 数 据 读 取出 来 并 且 存 入 到 音频 
队列 中 ， 同 时 也 使 得 用 户 可 以 听 到 伴 委 以 及 目 己 声音 的 耳 返 。 那 么 PCM 
数据 在 音频 队列 中 后 续 又 是 如 何 处 理 的 呢 ? 答案 是 编码 ， 下 面 就 来 进入 
7.3 市 完成 音频 编码 模块 的 实现 吧 。 











7.3” 首 频 编码 模块 的 实现 


本 节 我 们 来 看 看 音频 的 编码 部 分 ， 音 频 编 码 可 以 使 用 人 硬件 编码 也 可 
以 使 用 软件 编码 ， 关 于 如 何 使 用 FFmpeg (软件 编码 方式 )、 
MediaCodec (Android 平 台 的 人 硬件 编码 方式 ) 和 AudioToolbox (iOS 平 台 
的 硬件 编码 方式 ) 将 PCM 编 码 成 为 AAC， 这 些 内 容 在 第 6 章 中 已 经 详细 
介绍 过 了 ， 本 章 中 音频 编码 模块 的 输入 是 7.2 节 中 PCM 格 式 的 音频 队 
列 ， 输 出 则 存放 于 另外 一 个 AAC 格 式 的 音频 队列 之 中 。 本 节 不 会 再 像 第 
6 章 那样 讲解 如 何 使 用 API 编 码 PCM 数 据 了 ， 而 是 重点 讲解 如 何 将 该 编 
码 堪 集成 到 整个 系统 中 来 ， 本 节 将 以 软件 编码 作为 示例 来 讲解 ， 如 果 读 
者 有 兴趣 ， 可 以 目 行 将 各 目 平 台 的 便 件 编码 的 实现 集成 进来 。 


类 似 于 第 6 章 中 视频 编码 ， 音 频 的 编码 也 应 该 放 到 一 个 单独 的 线程 
中 ， 所 以 我 们 建立 一 个 类 AudioEncoderAdapter， 利 用 PThread 维 护 一 个 
编码 线程 ， 不 断 地 从 音频 队列 中 取出 PCM 数 据 ， 然 后 调用 编码 器 进行 编 
码 ， 使 其 成 为 AAC 数 据 ， 最 后 将 AAC 数 据 封装 成 为 AudioPacket 数 据 结 
构 ， 并 放 入 到 AAC 的 队列 中 。 其 中 ， 编 码 器 是 我 们 自己 封装 的 一 个 
AudioEncoder 类 ， 实 际 上 束 是 在 第 6 章 的 编码 器 类 基础 上 进行 的 修改 ， 
下 面 来 逐一 看 一 下 各 个 类 的 有 具体 实现 。 

















7.3.1 改造 编码 峰 


首先 来 看 一 下 AudioEncoder 类 ， 在 此 之 前 ， 先 回顾 一 下 第 6 章 中 编 
码 喜 的 结构 ， 当 时 在 初始 化 函数 中 直接 给 出 了 一 个 文件 路 径 ， 让 
FFmpeg 帮 我 们 输出 到 这 个 文件 中 ， 在 这 里 则 需要 改造 一 下 。 


由 于 该 类 仅仅 负责 编码 而 不 需要 完成 封装 格式 以 及 写 文 件 的 工作 ， 
而 使 用 FFmpeg 其 实用 不 到 libavformat 模 块 ， 仪 仅 使 用 它 的 libavcodec 模 
块 就 可 以 完成 工作 了 ， 因 此 要 将 初始 化 方法 改造 一 下 ， 仪 需要 分 配 出 编 
码 器 ， 并 且 把 对 编码 器 的 要 求 设置 进去 ， 分配 出 存放 PCM 数 据 的 缓冲 区 
以 及 输送 给 编码 器 之 前 的 AVFrame 结 构 体 就 可 以 了 。 


实际 的 编码 过 程 也 需要 修改 一 下 ， 首 先 在 AudioEncoder 类 中 定义 一 
个 回调 方法 : 





























static int fil1_pcm_frame_callback(int16 t *samples, int frame_size, 
int nb_channels, void *context) 


该 回调 函数 用 于 让 客户 端 代码 〈 即 调用 AudioEncoder 的 地 方 ) 提供 
PCM 数 据 。 编 码 函 数 的 实现 会 对 PCM 数 据 进 行 编码 ， 编 码 之 后 是 
FFmpeg 中 AVPacket 的 结构 体 ， 最 后 将 该 FFmpeg 的 数据 结构 转换 为 我 们 
自己 定义 的 数据 结构 AudioPacket， 并 返回 给 调用 客户 端 。 


最 终 的 销毁 方法 比较 简单 ， 释 放 抒 所 分 配 的 存放 PCM 数 据 的 缓存 
区 ， 以 及 编码 前 的 AVFrame 数 据 结构 ， 关 闭 编码 器 上 下 文 并 且 释 放 即 
国民 


这 就 是 编码 器 类 的 改造 过 程 了 ， 由 于 其 实现 比较 简单 ， 代 码 就 不 在 
这 里 展示 了 ， 读 者 可 以 参照 代码 仓库 中 的 源码 进行 分 析 。 








7.3.2 ”编码 器 适配器 


本 节 将 完成 编码 器 的 适配器 ， 即 AudioEncoderAdapter， 从 名 字 上 就 
可 以 看 出 该 类 承担 的 职责 ， 下 面 就 来 实现 它 。 


首先 ， 提 供 的 初始 化 方法 代码 如 下 : 





void init(LivePacketPool* pcmPacketPool], int audioSampleRate, int audiochann 
int audioBitRate, const char* audio_codec_name ) ; 





初始 化 方法 需要 客户 端 〈 调 用 这 个 方法 的 类 ) 将 PCM 数 据 存放 的 队 
列传 递 进来 ， 因 为 这 个 类 需要 将 该 队列 作为 数据 源 ， 此 外 ， 客 户 端 还 需 
要 将 编码 文件 的 采样 率 、 声 道 数 、 比 特 率 以 及 编码 器 的 名 称 传递 进来 ， 
因为 这 个 类 需要 根据 这 些 参数 去 寻找 编码 器 并 配置 编码 器 。 这 个 方法 的 
实现 需要 构建 出 编码 后 的 AAC 存 放 队 列 ， 并 且 局 动 一 个 编码 线程 来 进行 
编码 工作 。 接 下 来 看 一 下 编码 线程 的 主体 流程 是 如 何 工作 的 : 





audioEncoder = new AudioEncoder(); 
audioEncoder->init(audioBitRate,audioChannels,audioSampleRate, 
audioCodecName,fill pcm_ frame_callback, this); 
while(isEncoding)t{ 
AudioPacket *audioPacket = NULL; 
int ret = audioEncoder->encode(&audioPacket ) ; 
if(ret >= 0 && NULL != audioPacket){ 
aacPacketPool->pushAudioPacketToQueue(audioPacket ) ; 


} 

if (NULL != audioEncoder) { 
audioEncoder->destroy(); 
delete audioEncoder; 
audioEncoder = NULL; 


} 





编码 线程 的 最 开始 ， 将 会 利用 初始 化 函数 的 参数 来 实例 化 一 个 7.3.1 
节 讲 解 的 编码 器 ， 可 以 看 到 初始 化 编码 井 除 了 需要 上 述 参数 以 外 ， 还 要 
加 上 一 个 回调 函数 ， 该 回调 函数 负责 按照 帧 大 小 和 声 道 数 取出 PCM 数 据 
队列 中 的 PCM 数 据 。 接 下 来 再 来 看 一 下 该 回调 函数 的 实现 : 








int AudioEncoderAdapter::getAudioFrame(int16 t * samples, 
int frame_size, int nb_channels) { 
int sampleCnt = frame_size * nb_channels,; 
int samplesInShortCursor = 0; 


while (true) { 
If (packetBufferSize == 0) { 
int ret = this->getAudiopacket(); 
if (ret < 0) { 
return ret; 


int copyToSamplesInShortSize = sampleCnt - SamplesInShortCursor 
if (packetBufferCursor + copyToSamplesInShortSize <= packetBufferSiz 
memcpy(samples + samplesInShortCursor, packetBuffer 
+ packetBufferCursor, copyToSamplesInShortSize * 
sizeof(short)); 
packetBufferCursor += copyToSamplesInShortSize; 
samplesInShortCursor = 0; 
break; 
} else { 
int subPpacketBufferSize = packetBufferSize - 
packetBufferCursor ， 
memcpy(samples + samplesInShortCursor, packetBuffer 
+ packetBufferCursor, subpacketBufferSize * 
sizeof(short)); 
samplesInShortCursor += SubPacketBufferSize， 
packetBufferSize = 0; 
continue; 


} 


return frame_size * nb_channels; 


} 








这 个 回调 函数 看 起 来 很 复杂 ， 下 面 就 来 逐一 分 析 一 下 ， 在 这 个 函数 
的 输入 参数 中 ， 和 希望 填充 的 帧 大 小 是 frame_size， 声 道 数 是 
nb_channels， 填 充 目 标 是 samples 这 一 块 内 存 区 域 ， 所 以 计算 得 出 需 
填充 进去 的 采样 的 数目 束 是 : 








int Samplecnt = frame_size * nb_channels,; 





由 于 从 PCM 队 列 中 取出 的 PCM 的 buffer 大 小 与 编码 器 需要 我 们 填充 
的 sampleCnt 的 大 小 并 不 一 定 相 同 ， 所 以 如 果 PCM 队 列 的 buffer 小 于 
sampleCnt， 则 需要 积攒 多 个 buffer 放 入 这 个 内 存 区 域 中 ， 如 果 大 于 
sampleCnt， 则 应 该 根据 要 求 进行 拆 分 ， 并 放 入 下 一 次 编码 器 要 求 放 入 
的 内 存 区 域 中 。 所 以 这 里 需 ;要 设置 一 个 六 samplesInShortCursor 的 变量 ， 代 
表 已 经 为 该 填充 区 域 填充 进去 了 多 少 个 采样 ， 对 于 PCM 队 列 读 取出 来 的 
buffer， 可 用 packetBuffer 来 代表 ， 使 用 packetBufferSize 代 表 该 buffer 的 大 
小 ， 使 用 packetBufferCursor 代 表 已 经 使 用 了 该 buffer 的 多 少 个 数据 。 


如 果 PCM 队 列 中 读 取 出 来 的 buffer 已 经 被 耗 尽 了 ， 则 调用 
getAudioPacket 方 法 (具体 的 实现 在 下 面 再 给 出 〉 去 PCM 队 列 中 读 取 一 





个 新 的 buffer: 如 果 返 回 的 值 小 于 0， 则 代表 已 经 结束 ， 就 返回 小 于 0 的 
值 ， 编 码 器 则 结束 ;如 果 返 回 的 值 大 于 0， 则 代表 正确 读 出 了 PCM 数 
据 ， 并 且 将 采样 存放 到 了 全 局 变量 packetBuffer 中 ， 采 样 数目 存放 到 了 
packetBufferSize 之 中 ， 首 先 来 计算 还 需要 为 编码 器 填充 的 内 存 区 域 填充 
多 少数 据 : 





int copyToSamplesInShortSize = sampleCnt - samplesInShortCursor,; 


然后 判断 当前 PCM 队 列 读 取出 来 的 Buffer 是 否 还 有 这 么 多 的 数据 可 
用 于 填充 : 


if (packetBufferCursor + copyToSamplesInShortSize <= packetBufferSize) 


如 果 packetBuffer 里 面 还 有 足够 多 的 数据 ， 那 么 就 找 贝 数据 ， 然 后 
将 packetBufferCursor 的 大 小 加 上 拷贝 的 大 小 ， 如 末 数 据 不 够 用 ， 那 么 束 
先 计 算 一 下 packetBuffer 里 面 还 有 多 少数 据 ， 并 把 剩余 的 数据 全 部 都 找 
见 到 编码 器 需要 我 们 填充 的 内 存 区 域 中 ， 然 后 将 packet-BufferSize 设 置 
为 0， 进 行 下 一 次 循环 ， 再 一 次 从 PCM 队 列 中 读 取 出 新 的 packetBuffer， 
ne 中 的 操作 ， 直 到 将 编码 器 需要 我 们 填充 的 内 存 区 域 填充 
满 了 为 止 。 


再 来 看 一 下 这 部 分 代码 中 的 getAudioPacket 方 法 ， 由 于 在 两 个 平台 

之 上 音频 采集 的 实现 不 同 ， 因 此 需要 进行 特殊 处 理 。 在 Android 平 台 

上 ， 伴 各 和 人 声 都 要 单独 入 队 ; 而 在 iOS 平 台 上 ， 人 声 和 伴奏 是 合 3 
(Mix) 之 后 再 入 队 ， 所 以 这 个 getAudioPacket 的 实现 就 有 所 不 同 了 。 此 
类 中 的 实现 就 是 iOS 平 台 的 实现 ， 因 为 OS 平台 的 实现 是 把 伴奏 和 人 声 合 
并 (Mix) 之 后 再 放 入 到 人 声 队 列 之 中 的 ， 所 以 在 iOS 平 台 上 就 从 人 声 
队列 中 取出 数据 直接 填充 packetBuffer 了。 对 于 Android 平 台 ， 我 们 需要 
实现 一 个 子 类 ， 继 承 自 当前 类 并 且 重 写 getAudioPacket 方 法 ， 在 该 方法 
的 实现 中 首先 调用 父 类 方法 获取 到 人 声 数据 ， 然 后 再 读 取 伴奏 队列 中 的 
PCM 数 据 ， 将 恋 取 出 来 的 数据 与 父 类 填充 的 packetBuffer 进 行 合 并 
(Mix) ， 之 后 再 存 入 到 packetBuffer 中 ， 这 样 就 可 以 无 颖 地 接 入 到 整个 
系统 中 了 。 


继续 回 到 上 述 编码 线程 的 主体 流程 中 ， 有 一 个 判断 isEncoding 的 
while 循 环 ， 这 个 布尔 型 变量 就 是 为 了 控制 编码 循环 的 ， 在 循环 中 不 断 




















地 调用 编码 器 的 编码 方法 。 当 然 ， 编 码 嚣 进行 编码 时 ， 第 一 步 束 是 调用 
上 面 大 篇 幅 讲 解 的 回调 函数 以 填充 PCM 数 据 ， 然 后 将 其 编码 成 为 一 个 我 
们 自己 定义 的 结构 体 AudioPacket 并 返回 。 客 户 端 代码 获取 到 
AudioPacket 之 后 ， 若 判断 返回 值 是 正确 编码 ， 则 将 它 放 入 到 AAC 的 队 
列 之 中 ;如 果 返 回 值 是 编码 失败 的 话 则 跳出 循环 ， 并 最 终 销 毁 编 码 堪 。 
该 适配器 还 要 提供 一 个 销毁 的 方法 ， 进 入 销 骊 方法 之 后 首先 将 
isEncoding 这 个 变量 设置 为 false， 进 而 丢弃 PCM 的 队列 ， 然 后 等 待 编码 
线程 结束 ， 最 后 销毁 我 们 目 己 分 配 的 packetBuffer 等 资源 。 这 样 一 来 ， 
人 了 ， 大 家 可 以 参照 代码 仓库 中 的 实际 代码 进行 分 








7.4” 男 面 及 集 与 编码 模块 的 实现 


本 节 会 基于 第 6 半 的 摄像 尖 画 面 米 集 的 工程 继续 进行 开 友 ， 不 同 之 
处 在 于 编码 之 后 的 H264 数 据 不 会 直接 写 入 文件 ， 而 是 会 放 到 视频 队列 
之 中 ， 所 以 本 市 将 会 重点 介绍 视频 队列 的 实现 以 及 如 何 将 编码 之 后 的 
H264 数 据 放 入 队列 之 中 ， 如 果 读 者 对 于 视频 画面 的 采集 与 编码 还 不 熟 


悉 的 话 ， 那 么 请 回 到 第 6 章 中 再 学 习 一 下 。 

















7.4.1 视频 队列 的 实现 


视频 队列 的 实现 与 音频 队列 是 非常 类 似 的 ， 有 具体 实现 在 此 束 不 再 更 
述 了 ， 但 是 要 看 一 下 具体 的 接口 ， 以 便 后 续 使 用 。 


初始 化 接口 ， 用 于 队列 的 初始 化 工作 ， 要 想 使 用 队列 ， 第 一 步 就 应 
调用 如 下 这 个 方法 : 








void init(); 





入 队 接口 ， 如 果 要 向 队 列 中 存 入 一 个 视频 帧 ， 则 调用 该 接口 方法 ， 
如 果 存 入 成 功 则 返回 0， 和 否则 返回 负数 : 








int put(VideoPacket* VideoPacket ) ; 





从 队列 中 拿 出 一 个 视频 帧 ， 此 方法 为 一 个 阻塞 方法 ， 即 如 果 队 列 为 
空头 会 阻塞 住 ， 直 到 队列 被 丢 奔 或 者 有 了 新 的 视频 帧 。 如 果 正 确 获 取 到 
视频 帧 则 返回 0， 如 有 果 返 回 的 值 小 于 0， 则 代表 队列 被 丢 径 卸 了: 








int get(VideoPacket** packet ) ; 








丢弃 队 列 ， 即 不 再 接受 任何 入 队 和 出 队 的 请 求 ， 一 般 在 队列 使 用 结 
束 之 前 调用 这 个 方法 : 





void abort(); 








接 下 来 的 这 个 方法 为 私有 方法 ， 当 队列 被 销毁 的 时 候 调 用 ， 该 方法 
会 把 队列 中 的 所 有 元 素 全 都 取出 来 并 且 销 毁 掉 : 





void flush(); 





另外 ， 其 所 存放 的 元 素 与 音频 队列 也 是 不 一 样 的 ， 所 以 在 这 里 有 必 
要 声明 一 下 各 个 视频 帧 结构 体 的 具体 构成 : 





typedef struct VideoPacket { 
byte * buffer 
int size; 
int timeMills; 
int duration; 
VideoPacket() { 
buffer = NULL; 
size = 0; 
timeMills = -1; 
duration = 0; 


} 
~VideoPacket() { 
if (NULL != buffer) { 
delete[] buffer; 
buffer = NULL; 


} 


} VideoPacket; 








可 以 看 到 该 结构 体 中 记录 了 这 一 帧 视频 帧 的 数据 和 数据 长 度 ， 以 及 
的 时 间 蕉 与 时 长 ， 在 析 构 函数 中 会 释放 掉 视 频 帧 所 占 的 内 
年 。 





7.4.2” Android 平台 画面 编码 后 入 队 


在 Android 平 台 上 的 实现 将 基于 第 6 半 Android 平 台 的 人 硬件 编码 项 目 进 
行 改动 ， 以 适 配 当前 场景 下 的 需求 。 


先 找 到 HWEncoderAdapter 类 ， 然 后 找到 方法 drainEncodedData， 目 
前 这 个 方法 的 实现 是 从 MediaCodec 中 取出 编码 之 后 的 H264 数 据 ， 然 后 
写 入 文件 。 我 们 要 做 的 改造 就 是 将 写 文件 的 代码 部 分 全 部 都 市 除 挥 ， 然 
后 将 H264 的 数据 放 入 队列 之 中 。 在 改造 之 前 ， 我 们 再 来 回顾 一 下 比较 
重要 的 一 点 ， 就 是 MediaCodec 编 码 占 会 在 开始 编码 之 后 给 出 SPS 和 PPS 
信息 ， 并 且 PPS 是 放 在 SPS 之 后 的 ， 不 过 ， 两 者 会 放 在 同一 帧 之 中 。 具 
体 应 该 如 何 判 断 当 前 帧 是 否 是 SPS 和 PPS 所 代表 的 数据 帧 呢 ? 方法 如 
下 











由 于 MediaCodec 编 码 器 为 开发 者 提供 的 H264 数 据 是 有 一 个 开始 码 
的 ， 即 一 定 是 从 00000001 开 始 ， 之 后 才 是 帧 类 型 (NALU Type) ， 所 以 
可 以 通过 以 下 代码 来 取出 帧 类 型 (NALU Type) : 





int nalu_type = (outputData[4] & Ox1F); 





拿 出 数组 中 下 标 为 4 的 字 节 ， 使 其 和 0X1F 进 行 “ 相 与 ?的 操作 ， 得 到 
nalu_type， 将 nalu_type 和 再 264 协 议 中 预 设 的 Type 进行 比较 ， 从 而 判断 其 
到 底 是 何 种 类 型 的 NALU 类 型 。 我 们 之 前 的 操作 是 将 SPS 和 PPS 保 存 下 
来 ， 然 后 在 每 一 个 关键 帧 前 面 拼接 上 SPS 和 PPS 人 信息。 但 是 在 Mux 模 块 
(7.4.3 节 中 将 会 讲 到 〉 中 ， 将 H264 数 据 封 装 (Mux)〉 到 一 个 MP4 文 件 中 
的 时 候 ， 仅 需要 一 次 SPS 和 PPS 的 设置 ， 所 以 这 里 也 仅 需 要 将 SPS 和 了 PPS 
言 息 放 入 队列 中 一 次 。 在 判断 了 NALU Type 是 SPS 之 后 ， 就 将 其 填 入 队 
0 i 也 不 会 再 一 次 填 入 队列 之 

， 人 代码 如 下 : 





if(isSPSUnwriteFlag)t{ 
VideoPacket* videoPacket = new VideoPacket(); 
videoPacket->buffer = new byte[sizel]; 
memcpy(videoPpacket->buffer, outputData, size); 
VideoPacket->size = size,; 
videoPacket->timeMills = timeMills,; 
packetPool->pushRecordingVideoPacketToQueue(videoPacket); 
ISSPSUnwriteFlag = false; 





如 果 不 是 SPS 和 PPS 的 话 ， 那 么 就 直接 进行 封装 ， 使 其 成 为 
VideoPacket， 然 后 将 其 放 入 队列 之 中 ， 代 码 如 下 : 





VideoPacket* videoPacket = new VideoPacket( ) ; 
VideoPacket->buffer = new byte[sizel]; 
memcpy(VvideoPacket->buffer，outputData，Size); 
VideoPacket->size = size; 

videoPacket->timeMills = timeMills,; 
packetPool->pushRecordingVideoPacketToQueue(videoPacket); 





这 样 就 将 MediaCodec 编 码 出 来 的 H264 数 据 按照 与 Mux 模 块 约定 好 
的 格式 填 入 到 队列 之 中 了 。 本 节 仅 改动 了 硬件 编码 部 分 ， 软 件 编码 部 分 
不 再 进行 讲解 ， 但 是 代码 示例 中 会 有 针对 于 软件 编码 分 文 的 处 理 。 


7.4.3 iOS 平台 画面 编码 后 入 队 


在 iOS 平 台中 的 实现 也 会 基于 第 6 章 中 iOS 平 台 的 硬件 编码 项 目 进行 
改动 ， 将 编码 后 的 H264 的 Packet 放 入 到 视频 队列 中 蔡 换 掉 之 前 写 文 件 的 
操作 ， 以 供 后续 的 Muxer 模 块 使 用 。 基 于 之 前 的 类 
H264HwEncoderHanlder 进 行 修改 时 ， 首 先 要 把 初始 化 方法 中 写 文 件 的 
代码 全 部 去 除 掉 ， 然 后 修改 以 下 两 个 方法 ， 分 别 是 获取 SPS 和 PPS 的 方 
法 和 获取 一 帧 视频 帧 的 方法 。 通 过 第 6 章 我 们 已 经 知道 ， 每 一 帧 之 前 都 
必须 要 拼接 上 开始 码 〈StartCode) ， 实 际 上 就 是 0000 ”0001， 当 解码 器 
每 一 次 碰 到 0000 0001 这 个 开始 码 的 时 候 ， 就 知道 这 是 一 个 数据 帧 的 开 
始 了 ， 并 且 在 解码 堪 读 取 到 下 一 个 开始 码 之 时 ， 就 知道 这 一 帧 已 经 结束 
了 ， 所 以 我 们 在 SPS、PPS 以 及 普通 的 视频 帧 前 面 都 要 拼接 上 这 样 一 个 
开始 码 来 表示 。 但 是 在 不 同 的 封装 格式 里 ， 对 于 视频 帧 的 封装 是 不 确定 
的 ， 所 以 这 里 仅 负责 在 视频 帧 前 面 拼 接 上 开始 码 ， 然 后 发 送 到 视频 队列 
中 ， 后 续 的 封装 处 理 就 是 Mux 模 块 的 事情 了 。 由 于 SPS 和 PPS 在 整个 编 
码 过 程 中 都 是 一 样 的 ， 所 以 仅 需 要 入 队 一 次 。 我 们 可 以 在 全 局 变量 列表 
中 新 增 一 个 布尔 类 型 变量 来 标志 是 否 做 了 SPS 和 PPS 入 队 ， 然 后 将 SPS 和 
PPS 前 面 都 加 上 开始 码 ， 并 将 这 个 数组 拼接 到 一 起 ， 封 装 成 一 个 
VideoPacket， 最 后 放 入 队列 之 中 。 代 码 如 下 : 


























const char bytesHeader[] = "\x00\x00\x00\x01"; 

size_t headerLength = 4; 

VideoPacket* spsPpsPacket = new VideoPacket(); 

size_t length = 2 * headerLength + sps.length + pps.length,; 

spsPpsPacket->buffer = new unsigned char[length]; 

spsPpsPacket->size = int(length); 

memcpy(spsPpsPacket->buffer, bytesHeader, headerLength); 

memcpy(spsPpsPacket->buffer + headerLength, (unsigned 
char*)[sps bytes], sps.length); 

memcpy(spsPpsPacket->buffer + headerLength + sps.length, 
bytesHeader, headerLength); 

memcpy(spsPpsPacket->buffer + headerLength*2 + sps.length, 

(unsigned char*)[pps bytes], pps.1length); 

spsPpsPacket->timeMills = 0; 

LivePacketPool: :GetInstance( )- 

>pushRecordingVideoPacketToQueue(spsPpsPacket); 





在 上 述 代码 中 可 以 看 到 ， 首 先 会 在 SPS 前 面 拼接 开始 码 ， 然 后 再 拼 
接 SPS 的 内 容 ， 接 下 来 会 再 拼接 一 个 开始 码 ， 最 后 再 拼接 PPS 的 内 容 ， 
至 此 ， 这 一 帧 特殊 类 型 的 帧 就 拼接 完成 了 。 接 下 来 封装 成 为 一 个 
VideoPacket， 最 后 将 构造 好 的 这 个 packet 推 送 到 视频 队列 之 中 ， 一 般 情 


况 下 这 会 是 视频 队列 中 的 首 帧 。 紧 接着 来 看 一 下 在 接受 到 一 帧 普通 视频 
帧 之 后 ， 应 该 如 何 做 ， 代 码 如 下 : 





const char bytesHeader[] = "\x00\x00\x00\x01"; 

size_t headerLength = 4; 

VideoPacket* videoPacket = new VideoPacket(); 

int length = headerLength + data.length; 

videoPacket->buffer = new unsigned char[length]; 

videoPacket->size = length; 

memcpy(videoPpacket->buffer, bytesHeader, headerLength); 

memcpy(VvideoPacket->buffer + headerLength, (unsigned char*)[data bytes], 
data.1length); 

videoPacket->timeMills = miliseconds,; 

LivePacketPool: :GetInstance( )- 

>pushRecordingVideoPacketToQueue(videoPacket); 








可 以 看 到 ， 这 里 在 视频 帧 原始 数据 的 前 面 拼接 上 开始 码 作为 视频 帧 
的 数据 ， 然 后 再 将 数据 长 度 以 及 时 间 惟 共同 封装 到 结构 体 对 象 之 中 ， 最 
终 放 入 视频 队列 之 中 ， 而 放 入 队列 之 后 具体 如 何 进行 封装 以 及 输出 ， 将 
在 接 下 来 的 7.5 节 中 完成 。 





7.5 “Mux 模 块 


竺 音频 帧 和 视频 帧 都 编码 完毕 之 后 ， 接 下 来 就 是 将 它们 封装 到 一 个 
容器 (如 MP4、FLV、RMVB、AVI 等 ) 中 ， 这 样 才 可 以 形成 一 个 完整 
的 视频 ， 在 架构 中 这 件 事情 是 通过 一 个 Mux 模 块 来 完成 的 。 对 于 这 个 模 
块 的 输入 ， 在 前 面 各 个 模块 的 实现 中 都 已 经 陆续 展示 出 来 了 ， 这 里 做 一 
个 总 结 ，7.3 节 把 7.2 节 中 的 PCM 数 据 编 码 成 为 了 AAC， 并 且 存 放 到 了 音 
频 编 码 的 队列 之 中 了 ; 7.4 节 已 经 把 摄像 头 采 集 出 的 视频 帧 编码 成 了 
H264， 并 存放 到 了 视频 编码 队列 之 中 ， 而 这 两 个 队列 就 是 Mux 模 块 的 输 
入 ， 那 么 这 个 模块 的 输出 又 是 什么 ?在 本 章 的 场景 下 就 是 磁盘 上 的 一 个 
MP4 文 件 ， 当然 也 可 以 是 网 络 流 媒体 服务 器 ， 这 种 情况 下 就 属于 直播 场 


景 了 











架构 设计 的 合理 性 


卉 清楚 了 输入 和 输出 之 后 ， 就 可 以 进一步 扩展 一 下 思路 了 ， 由 于 我 
们 不 想 影 响 采 和 集 以 及 实时 耳 返 和 预览 的 过 程 ， 因 此 要 在 编码 时 单独 抽取 
出 一 个 线程 来 。 那 为 什么 我 们 又 要 为 封装 和 文件 流 输 出 (对 应 于 
FFmpeg 的 Muxer 层 和 Protocol 层 〉 单独 抽取 出 一 个 线程 来 呢 ?” 人 和 仔细 观察 
可 以 发 现 ， 编 码 其实 是 一 个 CPU 密集 型 操作 《即使 是 便 件 编码 ， 也 是 要 
占用 CPU 的 时 间 片 和 编码 的 硬件 设备 进行 内 存 数据 交换 的 ) ， 而 我 们 的 
封装 和 文件 流 输出 却 不 会 特别 耗费 CPU， 尤 其 是 当 文 件 流 输 出 到 网 络 的 
时 候 ， 因 此 不 应 该 由 输出 来 影响 整个 编码 过 程 。 拆 分 开 之 后 每 个 模块 各 
司 其 职 ， 统 一 接口 ， 对 整个 系统 的 维护 以 及 扩展 都 有 了 极 大 的 好 处 ， 比 
如 ， 由 软件 编码 升级 为 便 件 编码 ， 由 于 接口 不 变 ， 所 以 直接 更 改编 码 模 
块 的 实现 就 好 了 ， 或 者 我 们 的 封装 格式 由 MP4 转 换 为 FLV 的 话 ， 也 只 需 
要 改动 封装 模块 。 





7.5.1 ”初始 化 


接 下 来 看 一 下 如 何 用 FFmpeg 实 现 格式 封装 与 文件 流 输出 ， 经 过 之 
前 章节 对 FFmpeg 的 了 解 ， 大 家 应 该 已 经 十 分 清楚 ， 封 装 和 输出 其 实 就 
是 FFmpeg 里 面 的 libavformat 这 个 模块 所 承担 的 职责 ， 首 先 来 看 一 下 这 个 
模块 的 初始 化 方法 : 





int init(char* videoOutputURI, int videowidth, 
int videoHeight,float videoFrameRate,int videoBitRate, 
int audioSampleRate, int audioChannels, int audioBitRate, 
char* audio_codec_name ) 





初始 化 方法 的 参数 比较 多 ， 如 果 分 为 三 部 分 来 解释 就 会 很 清晰 了 。 
第 一 部 分 只 有 一 个 参数 ， 就 是 输出 的 文件 路 径 ， 第 二 部 分 就 是 视频 流 的 
参数 ， 包 括 视频 的 宽 、 高 、 帧 率 、 比 特 率 以 及 视频 编码 格式 〈 默 认为 
H264 格 式 ) ; 第 三 部 分 束 是 音频 流 的 参数 ， 包 括 音 频 的 采样 率 、 声 道 
数 、 比 特 率 ， 以 及 音频 编码 器 的 名 称 。 这 个 初始 化 方法 的 实现 具体 如 
下 ， 构 造 一 个 Container( 对 应 于 FFmpeg 中 的 结构 体 类 型 为 
AVFormatContext) ， 根 据 上 述 的 视频 参数 配置 好 一 路 视频 流 
(AVStream) 添加 到 这 个 Container 中 ， 然 后 根据 上 述 的 音频 参数 再 配 
置 一 路 音频 流 (CAVStream) 添加 到 Container 中 。 下 面 再 来 看 一 下 具体 
实现 ， 第 一 步 先 注册 FFmpeg 里 面 的 所 有 封装 格式 、 编 解码 器 以 及 网 络 
配置 开关 《如果 需 要 将 视频 流 推送 到 网 络 上 的 话 ) : 











avcodec_ register all(); 
av_register_all(); 
avformat_network_init(); 





然后 根据 输出 目录 来 构造 一 个 Container， 即 构造 一 个 
AVFormatContext 类 型 的 结构 体 ， 其 实 该 结构 体 就 是 FFmpeg 中 使 用 
libavformat 模 块 的 入 口 : 








AVFormatContext* oc; 
avformat_alloc_ output_context2(&oc, NULL, "flv", videoOutputURI); 
AVOutputFormat* fmt = oc->oformat; 











接 下 来 构造 一 路 视频 流 ， 并 加 入 到 这 个 Container 中 。 首 先 按 照常 量 


AV_CODEC _ID_H264 找 出 H264 的 编码 器 ， 然 后 在 Container 中 增加 一 路 
H264 编 码 的 视频 流 ， 并 找 出 这 路 流 的 编码 器 上 下 文 ， 对 该 上 下 文 的 属 

性 依次 赋值 ， 即 可 构造 好 这 路 视频 流 。 同 时 ， 这 路 流 也 已 经 被 正确 地 添 
加 到 了 Container 中 。 代 码 如 下 : 





AVCodec *video codec = avcodec find encoder(AV_CODEC_ID H264); 

AVStream *st = avformat_ new_stream(oc, video_ codec); 

st->id = oc->nb_streams - 1; 

AVCodecContext *c = st->codec; 

->codec_id = AV_CODEC_ID_H264; 

->bit_rate = videoBitRate; 

->width = videowidth; 

->height = videoHeight; 

->time_base.den = 30000; 

->time_base.num = (int) (30000 / videoFrameRate ) ; 

->gop_size = videoFrameRate,; 

if (oc->oformat->flags & AVFMT_GLOBALHEADER ) 
c->flags |= CODEC_FLAG _ GLOBAL_HEADER; 


C 
C 
C 
C 
C 
C 
C 
工 





接 下 来 构造 一 路 音频 流 ， 整 个 过 程 和 视频 流 的 构建 非 党 类似， 不同 
的 是 ， 编 码 器 是 通过 传递 进来 的 编码 器 名 称 来 寻找 的 ， 代 码 如 下 : 





AVCodec *audio codec = avcodec find encoder_by_name(codec_name); 
AVStream *st = avformat_new_stream(oc, audio codec); 

st->id = oc->nb_streams - 1; 

AVCodecContext *c = st->codec; 

c->sample_fmt = AV_SAMPLE_FMT_S16; 

>bit_rate = audioBitRate; 

>codec_type = AVMEDIA_TYPE_AUDIO; 

>sample_rate = audioSampleRate; 

c->channel layout = audioChannels == 1 ? AV_CH_LAYOUT_MONO : 
AV_CH_LAYOUT_STEREO,; 

c->channels = av_get channel layout_nb_channels(c->channel _ layout); 
c->flags |= CODEC_FLAG_ GLOBAL_HEADER; 


ky: 
| 











和 视频 流 不 同 的 是 ， 完 成 音频 流 的 添加 之 后 ， 这 里 需要 为 编码 器 上 
下 文 设 置 一 下 extradata 变 量 ，FFmpeg 对 于 在 编码 端 设置 这 个 变量 的 目的 
是 ， 为 解码 器 提供 原始 数据 ， 从 而 初始 化 解码 器 。 还 记得 之 前 编码 AAC 
的 时 候 要 在 编码 出 来 的 数据 前 面 加 上 ADTS 的 头 吗 ? 其 实在 ADTS 头 部 
言 息 里 面 可 以 提取 出 编码 器 的 Profile、 有 采样 率 以 及 声 道 数 的 信息 ， 但 是 
在 FFEmpeg 中 并 不 是 每 一 个 AAC 的 头 部 都 能 添加 上 这 些 信息 ， 而 是 在 全 
局 的 extradata 中 配置 这 些 信 息 。 那 么 ， 来 看 一 下 如 何 为 FFmpeg 的 音频 编 
人 码 占 上 下 文 来 设置 这 个 extradata: 





int profile = 2; // AAC LC 


int freqIdx = 4; // 44.1Khz 

int chancfg = 2; // Stereo Channel 

char dsi[2]; 

dsi[0] = (profile<<3) | freqIdx>>1); 
dsi[1] = ((freqIdx&1)<<7) | (chancfg<<3); 
memcpy(c->extradata, dsi, 2); 





读者 可 能 会 有 疑问 ， 视 频 流 的 这 个 extradata 变 量 该 如 何 设置 呢 ? 关 
于 视频 流 编 码 器 中 的 变量 设置 将 会 在 7.5.2 节 中 讲解 ， 因 为 视频 流 中 的 这 
个 变量 存放 的 是 SPS 和 PPS 的 信息 ， 是 由 编码 器 在 编码 过 程 的 第 一 步 输 
出 的 ， 所 以 需要 放 在 7.5.2 节 来 讲解 。 同 时 我 们 也 要 配置 一 个 音频 格式 转 
换 的 滤波 器 ， 就 是 ADTS 到 ASC 格 式 的 转换 器 ， 代 码 如 下 : 











bsfc = av_bitstream filter_init("aac adtstoasc"); 





上 述 步骤 完成 之 后 说 明 我 们 的 Container 即 封装 格式 已 经 初始 化 好 
了 ， 然 后 就 是 打开 文件 的 连接 通道 ， 可 调用 FFmpeg 的 Protocol 层 来 完成 
操作 ， 代 码 如 下 : 





AVIOInterruptCB int_cb = { interrupt_cb, this }; 

oc->interrupt_callback = int_cb; 

avio_open2(&oc->pb, videoOutputURI, AVIO_FLAG WRITE, 
&oc->interrupt_callback, NULL); 





如 果 上 述 代 码 中 的 avio_open2 函 数 的 返回 值 大 于 等 于 0， 则 将 
isConnected 变 量 设 置 为 tue， 代 表 其 已 经 成 功 地 打开 了 文件 输出 通道 。 
唯一 需要 注意 的 一 点 是 ， 需 要 配置 一 个 超时 回调 水 数 进 去 ， 这 个 回调 函 
数 主 要 是 给 FFmpeg 的 协议 层 用 的 ， 在 实现 这 个 函数 的 时 候 ， 返 回 1 则 代 
表 结 束 MO 操 作 ， 返 回 0 则 代表 继续 UVO 操 作 ， 超 时 回调 函数 如 下 : 








static int interrupt_cb(void* ctx) { 
if(getCurrentTimeMills() - latestFrameTime > 15 * 1000) 
return 1; 
return ©; 


} 





上 述 代码 表示 如 果 当 前 时 间 超 过 了 封装 上 一 帧 的 时 间 〈15s) ， 则 
终止 协议 层 的 IO 操作 ， 当 然 ， 每 次 封装 完 一 帧 之 后 就 要 更 新 
latestFrameTime 这 个 变量 。 这 个 回调 函数 的 配置 是 非常 重要 的 ， 特 别 是 
在 后 续 我 们 要 和 网 络 打交道 的 时 候 。 初 始 化 方法 到 这 里 就 配置 结束 了 ， 


接 下 来 看 一 下 实际 的 封闭 和 输出 。 


7.5.2 ” 封 冯 和 输出 


符 构 建 好 了 这 个 Container 之 后 ， 再 不 断 地 将 音频 帧 和 视频 帧 交错 地 
on 
本 的 流程 : 





int ret = 0; 
double video time = getVideoStreamTimeInSecs(); 
double audio time = getAudioStreamTimeInSecs(); 
if (audio_ time < Video_time){ 

ret = write audio frame(oc, audio_ st); 
} else { 

ret = write video frame(oc, video_ st); 


JatestFrameTime = getCurrentTimeMills(); 
duration = MIN(audio time, video_ time); 
return ret; 





因为 音 视频 是 交错 存储 的 ， 即 存储 完 一 帧 视频 帧 之 后 ， 再 存储 一 段 
时 间 的 音频 〈 不 一 定 是 一 帧 音频 ， 这 要 看 视频 的 FPS 是 多 少 ， 因 为 代码 
中 是 按照 时 间 进 行 比较 的 ) ， 之 后 再 存储 一 帧 视频 帧 ， 所 以 在 某 一 个 时 
间 点 是 要 封装 音频 还 是 封装 视频 ， 是 由 当前 两 路 流 上 已 经 封装 的 时 间 惟 
来 决定 的 。 所 以 代码 中 首先 要 获取 两 路 流 上 当前 的 时 间 惟 信息 ， 然 后进 
行 比 较 ， 将 时 间 惟 比较 小 的 那 一 路 流 进行 封装 和 输出 ， 并 且 更 新 
latestFrameTime 弯 量 用 来 辅助 前 面 配置 的 超时 回调 函数 ， 最 后 一 步 ， 是 
将 两 路 流 中 较 小 的 时 间 惟 作为 时 长 存储 下 来 。 接 下 来 分 别 看 一 下 封装 和 
输出 音频 以 及 视频 流 的 部 分 。 


封装 音频 流 时 ， 首 先 从 AAC 的 音频 队列 中 取出 一 帧 音频 帧 : 




















int ret = AUDIO_QUEUE_ABORT_ERR_CODE ， 

AudioPacket* audioPacket = NULL 
fillAACPacketCallback(&audioPacket, fillAACPacketContext); 
audioStreamTimeInsecs= audioPacket->position; 








然后 取出 该 AAC 音 频 帧 的 时 间 戳 信息， 存储 到 全 局 变量 的 
audioStreamTimeInsecs 中 ， 作 为 要 写 入 音频 这 路 流 的 时 间 戳 信息， 以 便 
于 在 编码 之 前 取出 音频 流 中 编码 到 的 时 间 信 息 。 然 后 将 该 AAC 的 Packet 
转换 成 一 个 AVPacket 类 型 的 结构 体 : 





AVPacket pkt = {0 }; 

av_init_packet(&pkt); 

pkt.data = audiopacket->data,; 

pkt.size = audiopacket->size,; 

pkt.dts = pkt.pts = lastAudioPpacketPresentationTimeMills / 1000.0f / 
av_q2d(st->time_base); 

pkt.duration = 1024; 

pkt.stream index = st->index; 





接着 ， 将 上 述 代码 中 的 pkt 作 为 我 们 调用 bitStreamFilter 转 换 的 输入 
Packet， 在 调用 完毕 转换 之 后 ， 将 ADTS 封 装 格式 的 AAC 变 成 了 一 个 
人 之 后 就 可 以 通过 输出 通道 进行 输出 了 ， 代 码 
具体 如 下 : 





AVPacket newpacket,; 
av_init_packet(&newpacket ) ， 
ret = av_bitstream filter_filter(bsfc, st->codec, NULL, 
&newpacket.data, &newpacket.size, pkt.data, pkt.size, 
pkt.flags & AV_PKT_FLAG_KEY); 
if (ret >= 0) { 
newpacket .pts = pkt.pts; 
newpacket ,dts = pkt.dts; 
newpacket ,duration = pkt.duration; 
newpacket.stream index = pkt,.stream index; 
ret = av_interleaved write frame(oc, &newpacket); 


av_free_packet(&newpacket ) ， 





至 此 ， 就 将 从 队列 中 取得 的 一 帧 ADTS 封 装 格式 的 AAC 写 入 到 
Container 的 音频 流 中 了 。 下 面 来 看 一 下 如 何 将 其 封装 和 输出 到 视频 流 
中 ， 在 这 个 方法 的 实现 中 ， 首 先 填充 视频 编码 右上 下 文中 的 extradata， 
这 一 点 非常 重要 。 人 否则 等 这 个 视频 进行 播放 的 时 候 ， 会 因为 解码 器 无 法 
正确 初始 化 从 而 不 能 够 正确 地 解码 视频 。 首 先 取 出 H264 队 列 中 的 视频 
帧 ， 并 且 取 出 时 间 惟 更 新 视频 流 封装 到 的 时 间 ， 以 便于 Mux 模 块 的 主体 
流程 可 以 判断 下 一 帧 应 该 编码 哪 一 路 流 ， 代 码 如 下 : 

















VideoPacket *h264Packet = NULL; 
fillH264PacketCcallback(&h264Packet, fillH264PacketContext); 
videoStreamTimeInSecs= h264Packet->timeMills / 1000.0; 





接 下 来 看 一 下 如 何 正 确 填 充 extradata， 从 H264 的 队列 中 取出 一 帧 
H264 的 视频 帧 数据 ， 因 为 在 7.4 节 中 已 将 SPS 和 PPS 的 信息 拼接 起 来 了 ， 
并 且 封 装 成 为 一 帧 H264 数 据 并 放 入 到 了 视频 帧 队列 中 了 ， 所 以 在 取得 
H264 帧 之 后 首先 判定 是 否 是 SPS 信 息 ， 判 断 规则 是 取出 这 一 帧 H264 数 据 





的 ipdex 为 4 的 下 标 ， 按 位 “与 ”上 0x1F 得 到 NALU Type， 然 后 与 H264 中 预 
定义 的 类 型 进行 比较 ， 代 码 如 下 : 





uint8_t* outputData = (uint8_t *) ((h264Packet)->buffer); 
int nalu_type = (outputData[4] & Ox1F); 





至 于 NALU Type 的 类 型 定义 ， 笔 者 找 了 几 个 比较 重要 的 类 型 展示 如 
下 : 





#define H264_NALU_TYPE_NON_IDR_PICTURE 1 
#define H264_NALU_TYPE_IDR_PICTURE 

#define H264_NALU_TYPE_ SEQUENCE PARAMETER_SET 
#define H264_NALU_TYPE_PICTURE_PARAMETER_SET 
#define H264_NALU_TYPE_SEI 








OO 














所 以 ， 判 定 帧 类 型 是 不 是 SPS 类 型 即 判定 nalu_type 是 不 是 等 于 7， 如 
果 相 等 的 话 ， 则 将 这 一 帧 H264 数 据 拆 分 成 SPS 和 PPS 信 息 ， 由 于 在 7.4 节 
中 已 经 将 SPS 和 PPS 拼 接 成 了 一 帧 放 入 到 了 视频 队列 之 中 。 拆 分 过 程 的 
代码 在 这 里 就 不 再 展示 了 ， 其 实 就 是 找 出 H264 的 StartCode， 即 以 00 00 
00 01 开 始 的 部 分 ， 第 一 个 就 是 SPS， 第 二 个 就 是 PPS。 把 SPS 和 PPS 分 别 
放 入 到 两 个 uint8 {的 数组 之 中 ， 一 个 是 spsFrame， 另 外 一 个 是 
ppsFrame， 并 且 这 个 数组 的 长 度 也 存放 到 了 对 应 的 变量 之 中 最 后 将 
spsFrame 和 ppsFrame 封 装 到 视频 编码 器 上 下 文 的 extradata 中 ， 代 码 如 
下 : 








AVCodecContext *c = videoStream->codec; 
int extradata len = 8 + spsFrameLen - 4+1+2 + ppsFrameLen - 4; 
c->extradata = (uint8 _t*) av mallocz(extradata len); 
c->extradata_ size = extradata len; 
c->extradata[0] = Ox01; 
c->extradata[1] spsFrame[4 + 1]; 
c->extradata[2] spsFrame[4 + 2]; 
c->extradata[3] spsFrame[4 + 3]; 
c->extradata[4] OxFC | 3; 
c->extradata[5] OXEO | 1; 
int tmp = spsFrameLen - 4; 
c->extradata[6] = (tmp >> 8) & OxOOff; 
c->extradata[7] = tmp & OxOOff; 
int i = 0; 
for (i = 0; i < tmp; i++) 

c->extradata[8 + i] = spsFrame[4 + i]; 
c->extradata[8 + tmp] = Ox01; 
int tmp2 = ppsFrameLen - 4; 
c->extradata[8 + tmp + 1] = (tmp2 >> 8) & OxOOff; 
c->extradata[8 + tmp + 2] = tmp2 & OxOOfFf; 
for (i = 0; i < tmp2; i++) 


c->extradata[8 + tmp + 3 + i] = ppsFrame[4 + 工 ] ; 





上 述 拼接 规则 是 笔者 在 FFmpeg 的 源码 中 提取 出 来 的 (源码 在 
libavformat 目 录 中 ，avc.c 这 个 文件 里 面 的 方法 ff isom_write_avcc 中 ) ， 
分 为 以 下 几 个 部 分 : 第 一 部 分 是 元 数据 部 分 ， 即 下 标 从 0 到 5， 代 表 了 
version、profile、profile ”compat、level 以 及 两 个 保留 位 ， 第 二 部 分 是 
SPS， 包 括 SPS 的 大 小 以 及 SPS 的 内 部 信息 ; 第 三 部 分 是 PPS， 首 先是 
PPS 的 数目 ， 然 后 是 PPS 的 大 小 和 PPS 的 内 部 信息 。 这 个 拼接 规则 比较 重 
要 ， 请 读者 深刻 理解 一 下 ， 在 后 续 使 用 硬件 解码 器 加 速 视频 播放 堪 的 项 
目 中 ， 还 会 用 到 这 个 拼接 规则 ， 只 不 过 是 通过 extradata 解 析出 SPS 和 PPS 
的 信息 。 封 装 好 视频 流 编码 器 的 extradata 之 后 ， 才 表示 这 个 Container 完 
全 封装 好 了 ， 在 这 里 必须 调用 write_header 方 法 ， 将 这 些 MetaData 写 出 到 
文件 或 者 网 络 流 中 ， 代 码 如 下 : 








int ret = avformat write header(oc, NULL); 
if (ret >= 0) 

iswWriteHeaderSuccess = true; 
} 





当 write header 成 功 之 时 ， 将 变量 isWriteHeaderSuccess 设 置 为 true， 
以 方便 后 续 在 实现 销毁 操作 时 可 以 用 来 判断 是 否 需要 执行 write trailer 的 
翰 作 5 


接 下 来 就 是 真正 地 封装 并 且 输 出 视频 帧 了 ， 最 重要 的 是 视频 帧 的 封 
装 ， 即 把 从 H264 队 列 中 取出 来 的 H264 数 据 封装 成 FFEmpeg 认 识 的 
AVPacket， 封 装 中 最 重要 的 一 步 类 似 于 音频 里 的 格式 转换 ， 即 在 音频 的 
封装 过 程 中 使 用 ADTS 到 ASC 的 转换 过 滤器 ， 而 这 里 是 没有 这 样 的 转换 
过 滤器 可 以 使 用 的 ， 所 以 需要 做 手动 转换 ， 这 个 转换 过 程 也 很 简单 ， 把 
H264 视 频 帧 起 始 的 StartCode 部 分 替换 为 这 一 帧 视频 帧 的 大 小 即 可 ， 当 
然 大 小 不 包括 这 个 StartCode 部 分 ， 代 人 码 如 下 : 

















pkt.data = outputData; 
if(pkt.data[0] == 0x00 && pkt.data[1] == Ox00 && 
pkt.data[2] == Ox00 && pkt.data[3] == Ox01){ 

bufferSize -= 4; 
pkt.data[0] ((bufferSize) >> 24) & OxOOff; 
pkt.data[1] ((bufferSize) >> 16) & QOxOOff; 
pkt.data[2] ((bufferSize) >> 8) & 0x00ff ， 
pkt.data[3] ((bufferSize)) & OxOOff; 


} 


ee | 





如 上 述 代 码 所 示 ， 代 表 帧 大 小 的 这 个 bufferSize 的 字 节 顺序 是 很 重要 
的 ， 必 须 按照 代码 中 的 大 尾 端 (big endian) 字 节 序 进行 拼接 才 可 以 。 接 
下 来 就 是 将 该 AVPacket 的 size 设 置 为 bufferSize， 将 pts 和 dts 设 置 为 从 
H264 队 列 中 取出 来 的 pts 和 dts， 此 外 还 需要 将 视频 编码 器 上 下 文 的 
frame_number 加 1， 代 表 又 增加 了 一 帧 视频 帧 ， 最 后 还 有 一 个 对 于 
AVPacket 来 说 非常 重要 的 属性 flags， 即 标识 这 个 视频 帧 是 否 是 关键 
帧 ， 那 么 应 该 如 何 来 确定 取出 来 的 这 一 帧 H264 视 频 帧 是 否 是 关键 帧 
呢 ? 还 是 得 回 到 上 面 判断 NALU Type 的 地 方 ， 如 果 NALU Type 不 是 
SPS， 则 判断 其 是 否 是 关键 帧 ， 即 nalu_type 是 否 等 于 5; 如 果 是 关键 帧 ， 
则 将 flags 设 置 为 1， 可 以 使 用 FFmpeg 中 定义 的 宏 
AV_PKT_FLAG_KEY; 如 果 不 是 关键 帧 则 设置 为 0， 因 为 解码 器 要 按照 
是 耕 是 关键 帆 来 构造 解码 过 程 中 的 参考 队列 。 至 此 我 们 的 封装 工作 束 结 
i 接 下 来 就 是 输出 部 分 ， 其 实 输出 和 音频 流 的 输出 是 一 样 的 ， 代 码 
D0 下: 


























av_interleaved write frame(oc, &pkt); 





封闭 和 输出 视频 帧 结束 之 后 ， 惑 可 以 再 回 到 Mux 模 块 的 主体 流程 
了 ， 主 体 流 程 会 不 断 地 进行 循环 ， 直 到 音频 或 者 视频 的 封装 和 输出 函数 
返回 小 于 0 的 值 然 后 结束 ， 但 是 何 时 返回 小 于 0 的 值 呢 ? 其 实 就 是 在 获取 
AAC 队 列 以 及 获取 H264 队 列 的 时 候 ， 如 果 这 个 队列 被 abort 挥 了 ， 那 么 
就 返回 小 于 0 的 值 ， 那 么 这 两 个 队列 义 是 何 时 被 abort 挥 的 呢 ? 其实 就 是 
在 停止 整个 Mux 流 程 的 时 候 。 停 止 Mux 模 块 如 下 ， 首 先 会 abort 挤 这 两 个 
队列 ， 然 后 等 待 主体 Mux 流 程 的 线程 俘 止 ， 之 后 调用 销毁 资源 的 方法 ， 
销毁 资源 的 方法 将 在 7.5.3 市 进行 介绍 。 








7.5.3 销毁 资源 


对 于 销毁 资源 ， 首 先 要 做 的 是 判断 是 否 打开 了 输出 通道 ， 并 且 确 定 
它 是 否 做 了 write-Header 的 操作 ， 如 果 做 了 的 话 ， 束 要 执行 write_trailer 
的 操作 ， 并 且 设 置 好 duration: 





if (IsConnected && isWriteHeaderSuccess) { 
av_write trailer(oc); 
oc->duration = duration * AV_TIME_ BASE; 
} 





这 里 有 一 点 比较 重要 ， 如 果 我 们 没有 write header 而 又 在 销毁 的 时 候 
调用 了 write trailer， 那 么 FFmpeg 程 序 会 直接 月 沉 ， 所 以 这 里 使 用 了 一 个 
布尔 变量 来 保证 write header 和 write trailer 的 成 对 出 现 。 由 于 Mux 模 块 不 
做 编码 工作 ， 所 以 没有 打开 过 任何 编码 器 ， 也 就 无 需 关 闭 编码 器 ， 但 是 
对 于 音频 来 讲 ， 还 使 用 了 一 个 bitStreamFilter， 所 以 需要 关闭 : 








av_bitstream filter_close(bsfc); 





最 后 关闭 输出 通道 ， 并 释放 整个 AVFormatContext: 





if (isConnected) { 
avio_close(oc->pb); 
isConnected = false; 


} 
avformat_free_context(oc); 





操作 完 如 上 流程 ， 就 完成 了 销毁 资源 的 操作 。 


7.6 ”中 控 系 统 串联 起 各 个 模块 


最 终 我 们 来 写 一 个 控制 器 ， 将 所 有 的 模块 都 串联 起 来 ， 从 而 完成 整 
个 项 目 。 一 旦 进入 录制 视频 页 面 ， 就 已 经 有 了 视频 的 预览 界面 ， 即 已 经 
启动 了 7.4 节 的 视频 采集 模块 ， 只 不 过 我 们 不 会 启动 编码 线程 进行 编 
人 码 ， 然 后 ， 在 控制 器 中 初始 化 H264 视 频 队 列 和 PCM 的 音频 队列 ， 并 调 
用 7.5 节 的 Mux 模 块 的 初始 化 方法 。 如 果 初 始 化 成 功 了 的 话 〈 因 为 有 可 能 
涉及 输出 通道 建立 不 成 功 的 情况 ， 所 以 先 初 始 化 Mux 模 块 ， 再 初始 化 编 
码 模块 ) ， 则 应 该 在 启动 音频 的 采集 以 及 编码 模块 之 后 ， 再 局 动 视 频 的 
采集 以 及 编码 模块 ; 但 是 如 果 初 始 化 失败 的 话 ， 则 销毁 H264 视 频 队 列 
和 PCM 音 频 队 列 。 人 代码 如 下 : 














PacketPool* packetPool = PacketPool: :GetInstance() 
packetPool->initRecordingVideoPacketQueue(); 
packetPool->initAudioPpacketQueue(audioSampleRate); 
packetPool->initAudioPacketQueue( ); 
videoPacketConsumerThread = new VideoPacketConsumerThread () ; 
int initCode = VideoPacketConsumerThread->init(videoPath， 
videowidth, videoheight, videoFrameRate, videoBitRate, 
audioSampleRate,audioChannels, audioBitRate, 
"libfdk_aac"); 
if(initCode >= 0){ 
videoPacketConsumerThread->startAsync(); 
// Start Producer 
} elsef{ 
packetPool->destoryRecordingVideoPacketQueue( ) ; 
packetPool->destoryAudioPacketQueue( ) ， 
packetPoolJ->destoryAudioPacketQueue( ) ; 
} 





如 琳 初 始 化 成 功 ， 则 局 动 音频 的 采集 以 及 编码 模块 。 首 先 启动 7.2 
节 的 音频 采集 模 其 ， 然 后 局 动 7.3 节 的 音频 编码 线程 ， 接 着 启动 7.4 节 中 
的 视频 编码 模块 ， 这 样 整个 系统 就 运行 起 来 了 。 来 看 一 下 具体 的 实现 代 
人 码 : 














audioRecorder->start(); 
audioEncoder->start(); 
videoSscheduler->startEncoding(); 





此 时 我 们 可 以 看 到 ， 音 频 采 集 线 程 将 声音 不 断 地 采集 到 了 PCM 队 列 
之 中 ， 首 频 编 码 线程 不 断 地 从 PCM 队 列 中 取出 数据 并 进行 编码 ， 将 编码 
之 后 的 AAC 数 据 送 入 到 AAC 队 列 之 中 ; 同时 可 以 看 到 ， 视 频 采 集 线 程 








不 断 地 将 预览 画面 采集 下 来 ， 然 后 发 送 给 视频 编码 线程 进行 编码 ， 最 终 
编码 为 H264 数 据 并 传 入 到 H264 的 队列 之 中 ;而 最 开始 启动 的 Mux 模 
块 ， 会 不 断 地 从 这 两 个 队列 AAC 队列 与 H264 队 列 ) 中 取出 AAC 的 音 
频 帧 和 H264 的 视频 帧 ， 然 后 封装 到 MP4 的 Container 中 ， 最 终 输 出 到 本 地 
破 盘 的 文件 中 。 


当 停止 录制 的 时 候 ， 首 先 会 停止 生产 者 部 分 ， 即 停止 视频 的 编码 ， 
然后 停止 普 频 的 编码 ， 接 下 来 停止 音频 的 采集 ， 最 后 停止 Mux 模 块 ， 这 
样 整个 录制 过 程 就 结束 了 ， 代 码 如 下 : 














videoscheduler->stopEncoding(); 
audioEncoder->stop(); 
audioRecorder->stop(); 
videoPacketConsumerThread->stop(); 








这 个 中 控 系统 就 是 如 此 简单 ， 读 者 可 以 体会 一 下 一 个 复杂 的 系统 经 
过 优秀 的 设计 ， 也 会 变 得 简单 起 来 ， 所 以 笔者 建议 读者 在 日 常 的 开发 中 
可 以 采取 设计 先行 的 开发 模式 ， 等 设计 出 来 之 后 ， 找 对 应 的 开发 人 员 做 
二 个 设计 评审 会 ， 这 样 会 较 时 虹 器 出 问题 最终 可 以 提高 刺 个 开发 过 程 
9 效率 。 


7.7 ”本章 小 结 


最 终 我 们 终于 完成 了 整个 项 目 。 局 动 该 程序 之 后 ， 点 击 录制 按钮 ， 
进入 预览 界面 ， 我 们 可 以 寻找 一 个 合适 的 画面 ， 选 择 开始 录制 ， 大 家 可 
以 先 做 个 自我 介绍 ， 然 后 选择 一 个 伴奏 ， 唱 一 首 歌 曲 ， 然 后 点 击 停止 录 
制 ， 最 终 导 出 我 们 生成 的 MP4 文 件 ， 播 放 这 个 MP4 文 件 ， 束 可 以 看 到 我 
们 团 才 的 表演 了 。 在 播放 这 个 MP4 文 件 的 时 候 ， 有 的 读者 可 能 会 发 现 以 
下 几 个 问题 : 


为 什么 我 的 声音 听 起 来 特别 干 ， 能 不 能 给 修饰 一 下 呢 ? 

为 什么 我 脸 上 的 音 音 好 明显 啊 ， 能 不 能 做 个 美 闫 呢 ? 

是 的 ， 这 也 是 后 续 章节 的 重点 内 容 ， 我 们 会 将 声 首 进 行 美 化 ， 将 视 
频 进行 美化 ， 等 下 一 个 篇 幅 结束 之 后 ， 再 运行 最 新 的 项 目 生成 新 的 视 


频 ， 到 那 时 再 来 观看 这 个 视频 的 时 候 ， 你 就 会 发 现 ， 这 个 视频 中 有 一 个 
更 加 漂亮 《帅气 ) 的 你 ， 声 音 也 会 更 加 动听 。 








第 8 革 ” 首 频 效果 强 的 介绍 与 实践 


前 7 章 不 仅 介 绍 了 音 视 频 的 基础 概念 ， 还 在 Android 和 iOS 平 台 上 完 
成 了 两 个 比较 完整 的 应 用 ， 一 个 是 视频 播放 器 的 应 用 ， 一 个 是 视频 录制 
应 用 ， 因 此 可 以 把 前 7 章 称 为 基础 篇 或 入 门 篇 。 从 现在 开始 ， 将 介绍 一 
个 新 的 篇 章 一 一 提高 篇 ， 这 部 分 内 容 旨 在 为 基础 篇 中 的 两 个 应 用 添加 一 
些 必要 的 功能 《比如 添加 音频 滤 镜 、 视 频 滤 镜 ) ， 做 一 些 性 能 优化 〈 比 
如 硬件 解码 需 的 使 用 ) ， 实 现 一 些 公共 基础 库 的 抽象 与 构建 ( 首 频 处 
理 、 视 频 处 理 的 公共 库 ) 等 。 


我 们 已 在 第 1 章 介 绍 过 一 些 音频 背景 及 其 相关 知识 ， 本 章 会 在 此 基 
础 上 进行 更 加 深入 的 讲解 。 此 外 ， 本 章 还 会 介绍 一 些 基 本 的 乐理 知识 。 
让 我 们 开始 吧 ! 

















8.1 数字 音频 基础 


第 1 章 已 经 介绍 了 音频 的 模拟 信号 与 数字 信和 号 的 概念 ， 而 本 章 介绍 
的 内 容 都 属于 数字 音频 ， 所 以 本 节 会 以 更 加 直观 的 方式 来 讲解 数字 音 
频 。 在 开始 本 节 之 前 建议 读者 先 下载 一 个 音频 编辑 工具 ， 如 Audacity、 
Audition、Cubase 等 ， 其 中 Audacity 在 我 们 的 资源 目录 中 提供 了 一 个 Mac 
版 本 的 安装 文件 ， 如 果 读 者 使 用 的 是 Mac OS 环境 ， 则 可 以 直接 安装 。 
由 于 本 章 执 行 的 很 多 操作 都 基于 Audacity 工 具 的 ， 所 以 先 简单 介绍 
Audacity。Audacity 是 一 个 集 播放 、 编 辑 、 转 码 为 一 体 的 工具 软件 ， 也 
是 日 常 工 作 中 必 不 可 少 的 一 个 工具 。 大 家 可 以 在 本 章 资 源 目录 中 找到 对 
应 的 音频 文件 pass.wav 并 将 其 放 到 Audacity 中 ， 完 成 操作 后 ， 直 接 映 入 
眼帘 的 惑 是 下 面 要 介绍 的 音频 的 第 一 种 表示 形式 ， 即 波形 图 的 表示 。 

















8.1.1 波形 图 


声音 最 直接 的 表示 就 是 波形 图 ， 英 文 叫 waveform。 横 轴 是 时 间 ， 纵 
轴 根 据 意义 的 不 同 而 有 多 种 不 同 的 格式 ， 如 有 用 dB 表示 的 、 有 用 相对 值 
表示 的 等 ， 但 是 可 总 体 理 解 为 强度 的 大 小 。 下 面 先 看 看 当 笔 者 读 出 
pass[pa: sj 这 个 单词 时 所 产生 的 波形 图 ， 如 图 8-1 所 示 。 
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图 8-1 


当 横 轴 的 分 辨 率 不 够 高 时 ， 波 形 图 看 起 来 就 像 图 8-1 一 样 。 如 果 不 
是 一 个 单词 ， 而 是 一 段 话 ， 其 波形 图 就 会 由 多 个 这 样 的 波形 连接 起 来 ， 
而 所 有 波形 的 轮廓 可 以 称 为 整个 声音 在 时 域 上 的 包 络 〈envelope) ， 包 
络 整体 形状 描述 了 声音 在 整个 时 间 范 围 内 的 啊 度 。 一 般 来 说 ， 每 一 个 音 
节 对 应 一 个 这 样 的 三 角形 ， 因 为 每 一 个 音节 通常 都 会 包含 一 个 元 音 ， 而 
元 音 听 起 来 比 辅音 更 响亮 〈 如 图 8-1 中 的 0.05 一 0.18s) 。 但 是 也 有 例 
外 ， 比 如 ， 类 似 /s/ 的 唇齿 音 持续 时 间 比 较 长 ， 也 会 形成 一 个 比较 长 的 三 
角形 《〈 如 图 8-1 中 的 0.18 一 0.4s) ; 类 似 /p/ 的 爆破 音 会 在 瞬时 聚集 大 量 能 
量 ， 在 波形 上 体现 为 一 个 脉冲 《如 图 8-1 中 的 0.02 一 0.05s) 。 如 果 提 高 
横 轴 时 间 单 位 的 分 辨 率 ， 比 如 只 观察 20ms 的 波形 ， 则 可 以 看 到 波形 图 更 
精细 的 结构 ， 如 图 8-2 所 示 。 
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图 8-2 


图 8-2 左 边 的 图 就 是 放大 了 0.08 一 0.10s 部 分 的 波形 图 情况 ， 这 部 分 
是 元 音 ， 我 们 也 可 以 注意 到 这 个 波形 是 有 周期 性 的 ， 大 约 为 3 个 周期 多 
一 点 《每 个 周期 约 为 7ms〉 ， 这 也 是 所 有 浊音 在 时 域 上 的 特性 。 而 图 8-2 
右边 的 图 融 是 放大 了 0.2 一 0.22s 部 分 的 疲 形 疼 情况 ， 这 部 分 是 清音 ， 是 
没有 任何 周期 性 的 ， 并 且 频 率 〈 过 零 率 ， 即 在 横 轴 精度 一 致 情况 下 的 波 
形 的 玻 密 程 度 ) 比 元 音 高 很 多 。 


以 上 介绍 的 特性 我 们 都 可 从 波形 图 上 直观 看 出 来 。 我 们 知道 ， 波 形 
图 表示 的 就 是 随 着 时 间 的 推移 声音 强度 变化 的 曲线 ， 是 最 直观 也 是 最 容 
易 理 解 的 一 种 声音 的 表示 形式 ， 也 就 是 通常 所 说 的 声音 的 时 域 表 示 。 介 
绍 完 声音 的 时 域 表 示 ， 再 从 另外 一 个 维度 介绍 声音 是 如 何 表 现 的 ， 也 就 
是 它 的 频 域 表示 一 一 声音 的 频谱 (spectrum) 图 的 表示 。 

















8.1.2 ”频谱 图 


使 用 图 8-1 中 0.08 一 0.11s 的 这 一 段 声 音 来 做 FFT， 得 到 的 频谱 展示 图 
如 图 8-3 所 示 。 
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图 。8-3 


在 解释 频谱 图 之 前 先 理解 什么 是 FFIT。FFT 是 离散 傅立叶 变换 的 快 
速算 法 ， 它 可 以 将 一 个 时 域 信号 变换 为 频 域 表 示 的 信 己 ， 有 些 信号 在 时 
域 上 很 难看 出 是 什么 特征 的 ， 但 是 ， 如 有 果 变 换 到 频 域 之 后 ， 就 很 容易 看 
出 了 ， 这 就 是 很 多 信号 分 析 采 用 FFT 变 换 的 原因 。 因 此 ， 我 们 将 一 小 段 
波形 做 FFT 之 后 取 模 ， 注 意 这 里 必须 是 一 小 段 波 形 〈 一 般 是 20 一 
50ms) ， 如 果 这 段 波 形 表示 的 时 间 太 长 ， 就 没有 意义 了 。 对 首 频 信号 做 














FFT 的 时 候 ， 是 把 虚 部 设置 为 0， 所 得 到 的 FFT 的 结果 是 对 称 的 ， 即 音频 
采样 频率 为 44100， 那 么 0 一 22050 的 频率 分 布 和 22050 一 44100 的 频率 分 
布 是 一 致 的 。 下 面 基于 此 来 理解 图 8-3， 横 轴 频 率 的 表示 范围 为 0 一 
22050， 而 纵 轴 表示 的 就 是 当前 频率 能 量 的 大 小 ， 我 们 能 直接 看 到 的 就 
是 频 域 的 包 络 ， 如 果 把 横 轴 表示 的 单位 改 为 指数 级 〈 即 把 分 布 比较 密集 
的 地 方 使 用 更 加 精细 的 单位 来 表示 ) ， 就 可 以 显示 出 频 域 上 能 量 分 布 的 
精细 结构 。 图 8-4 表 示 频 域 分 布 的 精细 结构 。 
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图 8-4 


从 图 8-4 中 可 以 看 出 ， 每 隔 170Hz 就 会 出 现 一 个 峰 ， 而 这 恰恰 是 我 们 
在 图 8-2 左 边 的 图 中 所 看 到 的 波形 周期 〈 约 为 6ms) 所 对 应 的 频率 。 从 图 
8-4 中 还 可 以 看 出 语音 不 是 一 个 单独 的 频率 信号 ， 而 是 由 许多 频率 的 信 
号 经 过 简 谐 振动 登 加 而 成 的 。 图 8-4 中 的 每 一 个 峰 叫做 共振 峰 ， 第 一 个 
峰 叫 基 音 ， 其 余 的 峰 叫 泛音 ， 第 一 个 峰 的 频率 《也 是 相 邻 峰 的 间隔 ) 叫 
做 基 频 (fundamental frequency) ， 也 叫 音 高 (pitch) ， 和 名 记 为 0。 对 于 
人 声 来 讲 ， 声 带 发 声 之 后 会 经 过 我 们 的 口腔 、 颅 腔 等 进行 反射 ， 最 终 让 
别人 听 到 ， 但 是 这 里 基 频 指 的 就 是 声 帝 发 出 的 最 原始 的 声 首 所 代表 的 频 
率 。 因 此 ， 如 果 声 带 不 发 出 声音 ， 比 如 层 齿 音 〈/z/Wcws/ 等 ) 一 般 就 无 法 
检测 出 基 频 。 


图 8-4 的 频谱 图 有 很 多 峰 ， 每 个 峰 的 高 度 不 一 样 ， 这 些 峰 的 高 度 之 
比 决定 其 音色 (timbre) 。 但 对 于 语音 的 音色 来 说 ， 一 般 没 有 必要 精确 
描写 每 个 峰 的 高 度 ， 而 是 用 “共振 峰 ”(formant》 来 描述 的 。 共 振 峰 指 的 
是 包 络 的 峰 ， 从 图 8-4 可 以 看 到 ， 第 一 个 共振 峰 的 频率 170Hz， 第 二 个 共 


振 峰 的 频率 为 340Hz， 第 三 个 共振 峰 的 频率 为 510Hz， 第 四 个 共振 峰 的 
频率 为 680Hz， 第 五 个 共振 峰 的 频率 为 850Hz， 第 六 个 共振 峰 的 频率 为 
1020Hz， 越 往 后 共振 峰 的 频率 越 弱 ， 所 以 一 般 由 前 几 个 共振 峰 的 形状 决 
定 声音 的 音色 。 接 着 再 看 0.2~0.22s 波 形 的 频谱 图 表示 ， 如 图 8-5 所 示 。 
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图 8-5 


从 图 8-5 可 以 发 现 ， 在 低频 率 部 分 几乎 没有 峰 (1000Hz 处 由 于 能 量 
太 小 ， 可 以 忽略 ) ， 第 一 个 峰值 出 现在 5000Hz 以 上 ， 这 种 情况 下 也 就 无 
法 计算 基 频 ， 如 果 对 应 于 人 的 发 声 部 位 ， 那 就 是 我 们 的 声带 不 发 声 ， 这 
一 般 称 为 清音 。 清 音 通常 没有 共振 峰 ， 也 就 没有 基 频 和 没有 音 高 。 


上 面 的 频谱 图 只 能 表示 一 人 小段 声音 ， 而 如 条 我 们 想 观 察 一 丈 段 语音 
言 写 的 频 域 特性 ， 应 该 上 怎么 做 ?这 将 涉及 下 一 节 介 绍 的 语 谱 图 ， 我 们 在 


第 3 章 中 讲解 ffplay 时 在 显示 面板 上 绘制 的 就 是 语 谱 图 。 


8.1.3 语 谱 图 


我 们 可 以 把 一 整 段 语 音信 和 号 截 成 许多 帧 ， 并 将 它们 各 自 的 藻 

谱 * 坚 "起 来 〈 即 用 纵 轴 表示 频率 ) ， 用 颜色 的 深浅 来 代替 当前 频率 下 的 
能 量 强度 ， 再 将 所 有 帧 的 频谱 横 癌 并 排 起 来 〈 即 用 横 轴 表示 时 间 ) ， 怠 
得 到 了 语 谱 图 ， 可 以 用 声音 的 时 频 域 表示 。 语 谱 图 可 以 理解 为 一 个 三 维 
的 概念 ， 即 横 轴 为 x 轴 ， 表 示 时 间 ; 纵 轴 为 y 轴 ， 表 示 频 率 ， 以 及 一 个 z 
轴 ， 表 示 当 前 时 间 点 ， 当 前 频率 所 代表 的 能 量 值 〈 能 量 值 越 大 ， 颜 色 越 
深 ) 。 使 用 Audacity 软 件 打开 pass.wav 之 后 ， 在 这 一 轨 声 音 的 左 侧 选择 
频谱 图 (在 Audacity 中 话 谱 图 称 为 频谱 图 ) 的 视图 模式 ， 得 到 这 段 声音 
的 语 谱 图 ， 如 图 8-6 所 示 。 











图 8-6 


在 图 8-6 中 ， 横 轴 是 时 间 ， 纵 轴 是 频率 ， 颜 色 越 深 的 地 方 代 表 声 音 
的 能 量 越 大 。 所 以 从 图 8-1 的 波形 图 可 以 看 到 ，0.0 一 0.05s 是 在 必 / 这 个 爆 
破 音 的 时 候 ， 其 频率 基本 上 都 在 1000Hz 以 下 ;而 到 0.05 一 0.15s， 元 音 / 
a: /的 频率 就 非常 明显 ， 并 且 颜 色 已 经 非常 深 ， 是 可 以 计算 出 基 频 的 。 
随 着 时 间 的 推移 ， 到 0.2s 以 后 的 /8/， 其 频率 基本 上 都 在 5000Hz 以 上 ， 这 
- 段 声 音 是 无 法 计算 基 频 的 ， 属 于 清音 部 分 。 语 谱 图 的 好 处 是 可 以 直观 
地 看 出 共振 峰 频 率 的 变化 。 


下 面 再 介绍 一 下 清音 和 浊音 ， 因 为 这 对 于 后 续 在 基 频 检测 以 及 对 频 











域 数据 进 行 处 理 时 会 有 很 大 帮助 。 在 语音 学 中 ， 将 发 音 时 声带 振动 的 音 
称 为 浊音 ， 将 发 音 时 声带 不 振动 的 音 称 为 清音 。 辅 音 有 清 有 浊 ， 也 就 是 
大 家 常 说 的 清 辅 音 、 浊 辅音 。 而 在 大 多 数 语言 中 ， 元 音 缘 为 浊音 ， 旦 
音 、 半 元 音 也 是 浊音 。 我 们 可 以 尝试 发 出 /a/ 这 个 音 ， 同 时 用 手 触摸 喉 
部 ， 可 以 感觉 喉 晓 是 振动 的 ， 而 发 出 b/p/、d/VY、g/k/ 等 音 的 时 候 喉 晓 是 
不 振动 的 ， 这 些 音 都 是 清 辅 音 。 还 有 一 种 是 鼻音 ， 如 /m/、//、 几 等 都 
是 浊 辅 音 。 清 音 无 法 检测 出 基 频 ， 因 此 也 就 无 法 知道 它 所 代表 的 音 高 ; 
浊音 一 般 可 以 检测 出 基 频 ， 所 以 可 以 计算 出 它 表 示 的 音 高 。 


























8.1.4 深入 理解 时 域 与 频 域 


通过 前 面 的 介绍 ， 读 者 应 该 已 经 比较 清楚 声音 在 时 域 和 频 域 上 的 表 
示 。 但 是 ， 也 许 有 些 读者 可 能 还 是 不 太 清 楚 声 首 的 波形 是 如 何 产生 的 ， 
又 是 如 何 跟 频 域 联系 起 来 的 。 下 面 先 来 生成 一 段 单一 频率 的 声 首 ， 然 后 
逐步 登 加 不 同 频率 的 声音 ， 以 此 作为 我 们 的 声 源 ， 从 而 逐步 分 析 快 速 传 
里 叶 变 换 CFFT) 能 为 我 们 做 什么 。 


首先 编写 一 个 函数 来 生成 频率 为 440Hz， 单 声 道 ， 采 样 频 率 为 
44100Hz “注意 采样 频率 代表 的 波形 的 平滑 程度 ) ， 时 长 为 5s 的 声音 ， 
代码 如 下 : 





double sample_ rate = 44100.0; 
double duration = 5.0; 
int nb_samples = sample_rate * duration; 
Short* samples = new short[nb_samples]; 
double tincr = 2 * M PI * 440.0 / sample_rate; 
double angle = 0; 
Short* tempSamples = samples; 
for (int i = 0; i < nb_samples,; i++) { 
float amplitude = sin(angle); 
*tempSamples = (int)(amplitude * 32767); 
tempSamples += 1; 
angle += tincr; 


} 
// Write To PCM File 
delete[] samples; 





从 以 上 代码 中 可 以 看 到 ， 生 成 的 就 是 一 个 相位 为 零 的 正弦 波 ， 使 用 
Audacity 软 件 将 生成 的 PCM 文 件 以 裸 数据 (raw data) 的 方式 导入 ， 放 大 
横 轴 的 刻度 可 以 看 到 波形 图 ， 如 图 8-7 所 示 。 
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图 8-7 


从 图 8-7 中 可 以 看 出 ， 时 间 为 0 的 地 方正 处 于 正弦 波幅 度 为 0 的 地 
方 ， 所 以 相位 为 0。 从 图 中 还 可 以 看 出 ， 一 个 周期 大 约 为 2.27ms， 这 也 
正好 代表 了 生成 的 这 段 声 音 的 频率 为 440Hz。 也 许 读 者 可 能 会 问 ， 那 采 
样 频率 在 波形 图 中 又 代表 什么 ? 采样 频率 在 波形 图 中 代表 整个 波形 的 平 
滑 程 度 ， 采 样 点 越 多 ， 波 形 就 越 平 滑 。 紧 接着 选中 20ms 的 音频 来 做 傅 里 
叶 变 换 得 到 的 频谱 图 ， 如 图 8-8 所 示 。 


从 图 8-8 这 个 频谱 图 中 可 以 看 到 ， 波 峰 束 是 440Hz。 可 见 ， 侍 里 叶 变 
化 之 后 我 们 得 到 了 这 个 波形 在 频 域 上 的 表示 ， 并 且 是 正确 的 。 但 是 在 日 
常生 活 中 我 们 所 听 到 的 声音 永远 不 会 只 是 一 个 单调 的 正弦 波 ， 而 是 由 很 
多 波 登 加 而 成 的 。 因 此 ， 稍 微 改动 生成 波形 的 代码 来 生成 一 个 更 加 复杂 
的 声音 ， 仅 需 修 改 生成 幅度 的 那 一 行 代 码 ， 如 下 : 














float amplitude = (sin(angle) + sin(angle * 2+ MPI/3) + 
sin(angle * 3 + M PI / 2) + sin(angle * 4 + M PI / 4)) 
* 0Q.25; 


以 上 代码 中 使 用 了 四 个 正弦 波 登 加， 并 且 每 个 正弦 波 都 有 自己 的 相 
位 ， 相 位 是 随机 给 的 。 为 什么 后 面 乘 以 0.25， 是 因为 后 续 要 将 这 个 值 再 
转换 为 SInt16 表 示 的 值 ， 所 以 将 其 转换 为 -1 一 +I1 的 范围 内 。 使 用 
和 

8-9 所 未 。 
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图 8-9 


从 图 8-9 可 以 看 到 ， 没 有 一 个 单一 的 正弦 波 《〈 见 图 8-7) 看 起 来 那么 
规范 ， 显 然 这 是 由 很 多 个 波 骆 加 而 成 的 ， 并 且 不 同 的 波 还 有 自己 的 相 





位 ， 因 为 在 时 间 为 0 的 时 候 ， 能 量 不 是 从 0 开始 的 。 再 观察 图 8-9， 还 可 
以 看 出 它 具 有 周期 特性 ， 每 个 周期 约 为 2.25ms。 当 然 也 可 以 由 以 上 代码 
看 出 ， 最 主要 的 频率 还 是 440Hz 所 产生 的 正弦 波 频率 ， 所 以 选中 20ms 的 
波形 图 来 观察 它 的 频谱 图 ， 如 图 8-10 所 示 。 


在 图 8-10 中 ， 第 一 个 波峰 在 440Hz 处 ， 第 二 个 波峰 在 880Hz 处 ， 第 三 
个 波峰 在 1320Hz 处 ， 第 四 个 波峰 在 1760Hz 处 ， 由 此 可 见 ， 访 频谱 加 类 
似 于 人 所 发 出 的 非 清音 的 频谱 图 ， 该 频谱 图 的 其 频 就 是 440Hz.。 
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图 8-10 


上 面 介绍 了 这 么 多 波形 图 和 频谱 图 ， 读 者 应 该 已 经 比较 熟悉 声音 在 
时 域 上 的 表示 ， 以 及 时 域 和 频 域 的 转换 了 。 下 面 笔者 会 带领 大 家 将 声音 
的 时 域 信号 转换 为 频 域 信号 ， 然 后 提取 特征 并 做 一 些 操作 ， 让 我 们 开始 
吧 ! 


8.2 ”数字 音频 处 理 : 快速 传 里 时 变换 


本 节 介 绍 数字 音频 的 处 理 ， 由 8.1 节 介绍 的 内 容 可 知 ， 声 音 主要 的 
表示 形式 就 是 时 域 和 频 域 的 表示 ， 而 音频 处 理 就 是 针对 声音 分 别 在 时 域 
和 频 域 上 的 处 理 。 本 市 会 详细 介绍 如 何 从 时 域 和 频 域 方面 对 首 频 做 一 些 
处 理 。 对 于 时 域 方面 的 处 理 比较 简单 ， 不 需要 额外 进行 转换 的 操作 ， 因 
为 一 般 拿 到 的 音频 数据 就 是 时 域 表 示 的 音频 数据 。 知 要 对 音频 的 频 域 做 
处 理 ， 那 么 需 将 拿 到 的 首 频 数据 先 转 换 为 频 域 上 的 信号 ， 再 进行 处 理 。 
那么 如 何 转换 为 频 域 上 的 信号 呢 ? 在 8.1 节 中 提 到 过 ， 使 用 FFT， 即 使 用 
传 里 叶 变 换 ， 所 以 下 面 先 学 习 侍 里 叶 变 换 。 


离散 健 里 叶 变 换 简称 为 DFTr， 由 于 计算 速度 太 慢 ， 所 以 就 演变 出 了 
快速 傅 里 时 变换 ， 即 我 们 常 说 的 FFT， 在 处 理 音频 的 过 程 中 常 使 用 
MayerFFT 来 实现 。 本 市 不 是 讨论 全 里 叶 变 换 的 原理 以 及 公式 推 性 ， 而 
是 讲解 FFT 的 物理 意义 、 如 何 使 用 FFT 将 时 域 信号 转换 为 频 域 信号 ， 以 
及 如 何 利 用 逆 FFT 将 频 域 信号 重新 转换 为 时 域 信号 ， 同 时 在 iOS 平 台 会 
使 用 vDSP 来 提升 效率 ， 在 Android 平 台 的 armv7 的 CPU 架构 以 上 ， 会 使 用 
neon 指 令 集 加 速 来 提升 性 能 ， 这 样 的 安排 相信 会 使 读者 更 加 深入 地 了 解 
FFT， 还 可 以 迅速 地 将 优化 应 用 于 自己 的 日 常 工作 中 。 


1.FFT 的 物理 意义 


FFT 是 离散 传 里 叶 变 换 的 快速 算法 ， 可 以 将 一 个 时 域 信号 变换 为 频 
域 信 号 。 有 些 信号 在 时 域 上 很 难看 出 是 什么 特征 的 ， 但 是 ， 如 果 变 换 到 
频 域 之 后 ， 就 很 容易 看 出 其 特征 了 。 这 就 是 很 多 信和 号 分 析 《〈 声 音 只 是 众 
多 信号 中 的 一 种 ) 采用 FFT 变 换 的 原因 。 虽 然 很 多 人 都 知道 FFT 是 什 
么 ， 可 以 用 来 做 什么 ， 以 及 怎么 去 做 ， 但 是 却 不 知道 做 FFET 变 换 之 后 的 
意义 ， 下 面 束 来 和 大 家 一 块 分 析 FFT 的 物理 意义 。 


声音 的 时 域 信号 可 以 直接 用 于 FFT 变 换 ， 假 如 N 个 采样 点 经 过 FFT 之 
后 ， 就 可 以 得 到 NN 个 点 的 FFT 结 果 ， 为 了 方便 进行 FFT 运 算 ， 通 和 常 N 的 取 
值 为 2 的 整数 次 究 ， 如 512、1024、2048 等 。 根 据 采 样 定理 ， 采 样 频 率 要 
大 于 信号 频率 的 两 倍 ， 所 以 假设 采样 频率 为 Fs， 信 号 频率 为 FE， 采 样 点 
数 为 N， 那 么 执行 FFT 之 后 的 结果 就 是 N 个 点 的 复数 ， 每 个 复数 可 分 为 实 
部 a 和 虚 部 b 两 部 分 ， 表 示 为 : 




















_ 每 个 点 对 应 独 一 个 频率 点 ， 而 这 个 点 的 复数 的 模 值 就 是 这 个 频率 点 
的 幅度 值 ， 可 以 计算 为 : 





amplitude = sqrt(a *a+b * b); 





每 个 复数 都 会 有 一 个 相位 ， 其 在 物理 意义 上 代表 的 就 是 这 个 周期 的 
波形 的 起 始 相位 是 多 少 ， 相 位 的 计算 如 下 : 





phase = atan2(b, a); 











由 于 输入 的 是 声音 信号 ， 声 音信 号 在 时 域 上 表示 为 一 个 一 个 独立 的 
采样 点 ， 因 此 在 做 FFT 变 换 之 前 ， 要 先 将 其 变换 为 一 个 复数 ， 即 将 时 域 
上 革 一 个 点 的 值 作为 实 部 ， 虚 部 则 统一 设置 为 0， 由 于 所 有 输入 的 虚 部 
都 是 0， 因 此 导致 FFT 的 结果 是 对 称 的 ， 即 前 半 部 分 和 后 半 部 分 的 结果 
是 一 致 的 。 所 以 在 对 声音 信号 做 FFT 变 换 之 后 ， 只 要 使 用 前 半 部 分 就 可 
以 了 ， 因 为 后 半 部 分 是 对 称 的 ， 无 需 使 用 。 那 么 执行 FFT 得 到 的 结果 与 
真实 的 频率 有 什么 关系 呢 ? 


还 是 用 8.1.4 节 中 生成 音频 文件 的 代码 来 说 明 ， 利 用 以 下 公式 来 生成 
一 段 采样 频率 为 44100Hz 的 音频 文件 : 








float amplitude = (sin(angle) + sin(angle * 2+ M PI/ 3)+ 
sin(angle * 3 + M PI / 2) + sin(angle * 4 + M_PI / 4)) 
* 0.25; 








拿 到 这 个 音频 文件 后 ， 先 去 做 一 个 FFT， 具 体 如 何 操作 ， 这 里 暂 不 
讨论 。 先 把 FFT 的 计算 当做 一 个 黑 盒子 ， 给 它 输入 音频 的 时 域 信 号 ， 得 
到 频 域 信号 。 由 于 这 个 音频 文件 的 采样 频率 为 44100Hz， 做 FFT 的 窗口 
大 小 是 8192， 那 么 生成 FFT 结 果 的 第 一 个 点 的 频率 就 是 0OHz， 最 后 一 个 
点 的 频率 就 是 44100Hz， 而 共有 8192 个 点 ， 所 以 相 邻 两 点 之 间 表 示 的 频 
率 差 值 如 下 : 





44100 / 8192 = 5.3833Hz 





这 就 是 我 们 通常 所 说 的 使 用 8192 作 为 窗口 大 小 来 给 采样 频率 
44100Hz 的 声音 样本 做 傅 里 时 变换 ， 得 到 的 结果 分 辨 率 是 5.3833Hz。 接 
下 来 ， 在 FFT 的 结果 数组 中 找 出 第 一 个 峰值 〈 即 第 一 个 最 大 的 值 ) ， 可 
以 发 现 是 Index 位 置 为 82 的 元 素 ， 计 算出 它 代 表 的 频率 ， 如 下 : 





5.3833 * 82 = 441.43Hz 


由 于 声 普 源 是 由 4 个 波 合 加 而 成 的 ， 因 此 找到 的 第 一 个 峰值 是 频率 
最 低 的 峰值 ， 也 是 440Hz 所 代表 的 峰值 ， 那 为 什么 我 们 得 到 的 结果 是 
441.43Hz 呢 ? 这 如 是 前 面 所 说 的 分 辨 率 的 问题 ， 如 果 想 准确 地 算出 
440Hz， 就 要 增加 窗口 大 小 以 提高 频带 分 布 的 分 辨 座 ， 才 能 使 计算 出 来 
的 频率 更 加 准确 。 接 着 看 第 二 个 峰值 ， 它 是 在 mdex 为 163 的 位 置 ， 计 算 
出 它 代 表 的 频率 ， 如 下 : 








5.3833 * 163 = 877.478Hz 





得 到 了 第 二 个 波峰 的 频率 信息 后 ， 接 着 可 以 计算 出 第 三 个 波 的 频率 
为 5.3833x245=1319Hz， 第 四 个 波 的 频率 为 5.3833x327=1760.3Hz， 这 与 
图 8-10 看 到 的 波峰 分 布 情况 是 一 致 的 。 每 个 点 的 峰值 以 及 相位 的 计算 也 
可 用 上 述 公 式 计算 出 来 ， 这 里 不 再 歼 述 。 其 实 FFT 就 是 把 多 个 波 倒 加 后 
的 时 域 信号 ， 可 以 按照 频率 将 各 个 波 拆 开 ， 进 行 更 清晰 的 展示 。 下 面 会 
更 加 详细 讲解 如 何 做 FFT， 以 及 如 何在 移动 平台 上 进行 优化 。 


2.MayerFFT 的 使 用 


在 C++ 语 言 中 进行 FFT 变 换 时 ， 最 常 使 用 的 束 是 MayerFFT 的 实现 ， 
下 面 就 来 看 看 如 何 使 用 MayerFFT 将 音频 文件 进行 FFT 转 换 。 


先 下 载 一 个 MayerFFT 的 实现 ， 它 的 实现 虽然 比较 复杂 《这 里 不 做 
讨论 ) ， 但 是 已 经 比较 好 地 封闭 在 一 个 类 中 ， 这 个 类 也 可 以 在 本 章 的 代 
码 仓库 中 找到 ， 下 面 编写 一 个 类 文件 FFT-Routine 将 具体 的 实现 封装 起 
来 ， 然 后 提供 接口 给 外 界 调用 。 


构造 数 和 析 构 函数 的 代码 如 下 : 








FFTRoutine(int nfft); 
~FFTROoUtine( ); 


从 以 上 代码 中 可 以 看 到 ， 构 造 函 数 中 有 一 个 参数 nfft， 这 个 参数 代 
表 FFT 运 算 中 一 个 窗口 的 大 小 ， 这 也 是 做 FFT 最 基本 的 设置 ， 为 避免 频 
繁 的 内 存 开 辟 和 释放 操作 ， 在 构造 函数 的 实现 中 ， 要 开辟 一 个 nfft 大 小 
的 浮 点 类 型 的 数组 ， 以 供 做 FFT 运 算 时 使 用 ， 在 析 构 函数 中 销毁 这 个 浮 
1 接 下 来 看 看 从 时 域 信号 到 频 域 信号 的 正 同 FFT 变 换 的 接 
口 ， 代 人 码 如 下 : 





void fft_forward(float* input, float* output_re, float* output_im); 





从 接口 中 也 可 以 看 出 ， 第 一 个 参数 是 输入 的 时 域 信号 〈( 浮 乓 类 型 表 
示 ) ， 第 二 个 参数 和 第 三 个 参数 分 别 代表 了 转换 为 频 域 信 号 之 后 实 部 和 
虚 部 的 两 个 数组 ， 这 个 函数 的 具体 实现 如 下 。 


自 先 要 将 输入 数据 复制 到 在 构造 函数 开辟 的 数组 中 ， 然 后 调用 
MayerFFT 进 行 FFT 变 换 : 











memcpy(m_fft_data, input, sizeof(float) * nfft); 
MayerFFT: :mayer_realfft(nfft, n_fft_data); 





待 MayerFFT 执 行 完 时 域 到 频 域 转换 之 后 ， 实 部 和 虚 部 的 数据 也 已 
经 存放 到 mn_fft_data 中 了 ， 只 不 过 是 实 部 和 虚 部 是 对 称 存储 的 ， 我 们 需要 
流 妇 啤 序 取出 来 ， 但 是 要 沈 将 直流 分 量 第 一 个 元 素 ) 的 庶 部 时 为 0 
尺码 如 下 ， 














output_im[0] = 0; 

for(int i = 0; i < nfft / 2; i++) { 
output_re[i] = n_fft_data[i]; 
output_im[i + 1] = n_fft_data[nfft-1-i]; 








这 样 就 可 以 利用 开源 的 MayerFFT 做 了 声音 信号 的 时 域 到 频 域 的 转 
来 再 执行 一 个 逆 FFT 操 作 ， 即 把 频 域 数 据 变 换 为 时 域 数据 ， 接 
口 代 人 码 如 下 : 








void fft_inverse(float* input_re, float* input_im, float* output) 





从 接口 代码 中 可 以 看 到 ， 输 入 的 是 频 域 信号 ， 分 为 实 部 和 虚 部 ， 输 
出 的 是 时 域 信和 号， 即 一 个 浮 点 型 的 数组 。 来 看 一 下 具体 的 实现 ， 先 将 输 
3006000 0 代码 
DF 下 : 








int hnfft = nfft/2; 

for (int ti=0; ti<hnfft; ti++) { 
m_fft_data[ti] = input_re[ti]; 
m_fft_data[nfft-1-ti] = input_ im[ti+1]; 


} 
m_fft_data[hnfft] = input_re[hnfft]; 





然后 调用 MayerFFT 进 行凶 FFT 运 算 ， 运 算 之 后 的 结果 还 是 存储 到 
m_fft_data 这 个 浮 点 数组 中 ， 而 此 时 这 个 浮 点 数组 中 存储 的 束 是 时 域 信 
与 了， 最 终 ， 把 时 域 信号 拷贝 到 输出 参数 中 ， 代 码 如 下 : 











MayerFft::mayer_realifft(nfft, m fft_data); 
memcpy(output, nfft_data, sizeof(float) * nfft); 





这 样 就 可 以 将 频 域 信号 又 转换 回 时 域 信号 了 ， 这 种 逆 FFT 运 算 会 在 
一 些 首 频 处 理 中 有 特殊 的 作用 ， 比 如 变调 效果 器 (PitchShift〉 中 束 会 用 
到 这 种 操作 。MayerFFT 的 运算 都 是 在 CPU 上 进行 计算 的 ， 跨 平台 特性 
可 以 做 得 比较 好 (因为 只 有 一 个 CPP 的 实现 文件 ) ， 但 是 性 能 是 它 的 瓶 
颈 ， 而 在 移动 平台 上 最 需要 注意 的 就 是 性 能 问题 ， 所 以 在 下 面 会 给 出 在 
各 个 平台 上 的 优化 处 理 。 


3.iOS 平 台 的 vVDSP 加 速 


前 面 已 经 讲解 了 如 何 使 用 工具 类 MayerFFT 来 将 时 域 信 号 的 音频 转 
换 为 频 域 的 表示 。 而 在 移动 平台 上 我 们 最 关心 的 就 是 效率 ， 所 以 下 面 要 
针对 移动 平台 上 给 出 相应 的 实现 优化 。 在 iOS 平 台 上 可 使 用 iOS 提 供给 开 
发 者 的 vDSP 来 执行 FFT 的 优化 操作 。 苹 果 为 开发 者 提供 的 vDSP 无 论 是 
在 iOS 平 台 上 还 是 在 Mac OS 平台 上 都 可 以 使 用 ， 当 然 ， 在 使 用 之 前 ， 必 
须 将 Accelerate 这 个 framework 引 入 我 们 的 项 目 中 ， 具 体 做 法 就 是 在 工程 
文件 的 Build Phases 的 Link Binary with Libraries 中 添加 
Accelerate.framework 这 个 库 ， 然 后 要 使 用 到 vDSP 的 类 时 用 以 下 代码 引 
入 头 文件 : 














#include <Accelerate/Accelerate.h> 





现在 就 可 以 使 用 vDSP 来 加 速 运算 了 ，vDSP 中 提供 了 很 多 函数 来 完 
成 DSP 运 算 ， 本 节 只 介绍 FFT 的 运算 以 及 与 FFT 运 算 相 关 的 函数 。 使 用 
， 需要 先 构造 出 一 个 指针 类 型 的 OpaqueFFTSetup 的 结构 体 ， 调 用 
函数 如 下 : 





OpaqueFFTSetup *fftsetup; 
int m_LOG N = lo0g2(nfft); 
fftsetup = vDSP_create fftsetup(m LOG_N,KkFFTRadix2); 





第 一 个 参数 是 在 进行 FFT 转 换 时 使 用 的 窗口 大 小 (为 取 log2 之 后 的 
数值 )， 在 vDSP 中 ，FFT 的 窗口 一 般 是 2 的 N 次 方 ， 所 以 这 里 传 入 以 2 为 
底 取 对 数 的 数值 ， 第 三 个 参数 一 般 传递 jOS 提 供 的 枚 举 类 型 
kFFTRadix2， 这 样 就 构造 出 了 fftSetup 这 个 结构 体 类 型 。 然 后 分 配 一 个 
DSPSplitComplex 的 复数 类 型 作为 FFT 的 结果 输出 ， 代 人 码 如 下 : 





size_t halfSize = nfft / 2,; 

splitComplex.realp = new float[halfSize + 1]; 
memset(splitComplex.realp, 0, sizeof(float) * (halfSize + 1)); 
splitComplex.imagp = new float[halfSize + 1]; 
memset(splitComplex.imagp, ©0, sizeof(float) * (halfSize + 1)); 





如 上 述 代 码 所 示 ， 由 于 用 声音 做 FFT 的 结果 是 对 称 的 ， 因 此 只 需要 
去 取 半 部 分 的 数据 。 那 么 ， 为 复数 的 实 部 和 虚 部 分 配 空间 时 ， 也 只 要 分 
配 一 半 的 大 小 就 可 以 了 。 绪 构 体 中 的 realp 代 表 了 实 部 的 部 分 ，imagp 代 
表 了 虚 部 的 部 分 ， 当 分 配 好 这 个 结构 体 之 后 ， 束 可 以 进行 FFT 运 算 了 。 
ee 把 要 做 FFT 的 时 域 信 号 放 入 上 面 构造 好 的 复数 的 结构 体 中 ， 代 码 
0 下 : 














VvDSP_ctoz((DSPComplex*)input, 2, &splitComplex, 1, halfSize); 





输入 的 时 域 信号 是 float 类 型 的 数值 ， 首 先 强 制 类 型 应 转换 为 复数 类 
型 ， 然 后 利用 vDSP_ctoz 这 个 函数 将 复数 的 实 部 和 虚 部 分 开 存 储 ， 即 原 
始 的 复数 结构 体 是 交错 (interleaved) 存放 的 ， 而 转换 之 后 就 是 平 铺 
(Plannar)〉 存放 的 。 将 转换 之 后 的 结构 体 作 为 FFT 运 算 的 输入 ， 代 码 如 
让 





vDSP_fft_zrip(fftsetup, &splitComplex, 1, m LOG _N，kFFTDirection_Forward ) ; 





从 上 述 代码 可 以 看 到 ， 第 一 个 参数 是 最 开始 构造 的 OpaqueFFTSetup 
旨 针 类 型 的 结构 体 ， 第 二 个 参数 是 时 域 信号 填充 的 复数 结构 体 ， 后 续 的 
参数 指定 了 行距 和 大 小 ， 最 后 一 个 参数 代表 做 正 同 的 FFT，FFT 的 结 
还 是 会 放 入 这 个 复数 结构 体 中 ， 我 们 可 以 转换 为 自己 的 float 指 针 类 型 的 
输出 ， 代 码 如 下 : 








outputRe[i] splitComplex.realp[i]; 


for (int i = 0; i < halfSize; i++) { 
outputIm[i] = splitComplex.imagp[i]; 


} 





待 使 用 完 FFT 之 后 ， 要 将 分 配 的 OpaqueFFTSetup 指 针 类 型 的 结构 体 
销毁 掉 ， 并 且 还 要 将 分 配 的 复数 结构 体内 部 的 实 部 和 虚 部 部 分 的 数组 销 
毁 挤 ， 人 代码 如 下 : 








if (fftsetup) { 
VvDSP_destroy_fftsetup(fftsetup); 
fftsetup = NULL; 


} 
if (splitComplex.realp) { 
delete[] splitComplex.realp; 


} 

if (splitComplex.imagp) { 
delete[] splitComplex.imagp; 
splitCcomplex.imagp = NULL; 

} 





销毁 完毕 后 ， 当 然 也 可 以 利用 vDSP 来 做 逆 FFT (IFFT) 的 运算 ， 从 
名 字 上 来 看 ， 这 是 FFT 运 算 的 一 个 逆 过 程 〈 从 频 域 信号 转换 为 时 域 信 
号 ) 。 上 面 在 讲解 做 FFT 运 算 的 时 候 ， 提 到 过 最 后 一 个 参数 代表 了 做 正 
向 的 FFT， 如 果 使 用 KFFTDirection_Inverse， 则 代表 要 做 逆向 的 FFT。 一 
个 完整 的 做 道 FFT 的 代码 如 下 : 








void fft_inverse(float* input_re, float* input_ im, float* output) { 
DSPSplitComplex tsc; 
tsc.realp = input_re; 
tsc.imagp = input_im; 
vDSP_fft_zrip(fftsetup, &tsc, 1, m_LOG N, kFFTDirection_Inverse); 
VvDSP_ztoc(&tsc, 1, (DSPComplex*)output, 2, halfSize); 
float Scale = 1.0 / mnfft' 
VvDSP_vsmul(output, 1, &scale, output, 1, m_nfft); 








上 述 代码 中 ， 首 先 将 实 部 和 虚 部 放 到 复数 的 结构 体 中 ， 然 后 调用 
FFT 运 算 函 数 。 注 意 ， 此 时 最 后 一 个 参数 的 传递 代表 要 做 逆 FFT 运 算 。 
接着 调用 vDSP_ztoc 函 数 将 平 铺 〈Plannar) 分 布 的 复数 转换 为 交错 
Cinterleaved) 分 布 的 output 中 ， 最 终 道 FFT 的 结果 需要 除 以 窗口 大 小 才 
可 以 还 原 为 原来 的 时 域 信 号 ， 其 中 当 除 以 窗口 大 小 时 ， 使 用 了 vDSP 提 
供 的 VDSP_vsmul 函 数 来 提升 性 能 。 


4.Android 平 台 的 Ne10 加 速 


在 Android 平 台 上 ， 我 们 能 做 的 优化 束 是 使 用 Neon 指 令 集 来 加 速 运 
算 。Neon 指 令 集 是 一 种 单 指令 多 数据 的 计算 模式 ， 而 开发 者 直接 使 用 
Neon 指 令 集 来 实现 运算 的 加 速 以 及 实现 FFT， 成 本 太 高 了 ， 一 则 是 FFT 
的 实现 过 于 复杂 ， 二 则 是 测试 成 本 也 比较 篆 琐 ， 所 以 下 面 使 用 开源 的 
Ne10 这 个 库 来 实现 Android 平 台 的 性 能 提升 。 


Nel10 这 个 库 的 介绍 与 安装 可 以 参见 附录 部 分 ， 而 本 节 所 介绍 的 仅仅 
是 如 何 使 用 Ne10 这 个 库 来 实现 FFT 与 着 FFT 的 运算 。 首 先 引 入 Nel0 的 头 
文件 ， 代 码 如 下 : 


#include "NE10.h" 


然后 构造 一 个 FFT 运 算 的 配置 结构 体 。 注 意 ， 这 个 配置 项 结构 体 我 
们 选用 的 是 实数 到 复数 〈(r2c) 的 配置 项 ， 因 为 这 种 FFT 配 置 项 在 做 音频 
的 FFT 运 算 时 更 适合 ， 代 码 如 下 : 


ne10_fft_r2c_cfg_float32_t cfg; 
cfg = ne10_fft_alloc_r2c float32(nfft); 








构造 这 个 结构 体 需 要 传 入 的 参数 是 使 用 FFT 运 算 时 的 窗口 大 小 ， 由 
于 我 们 使 用 的 是 Ne10 这 个 库 ， 所 以 在 进行 FFT 运 算 时 需要 将 声 首 时 域 信 
号 构造 成 Ne10 需 要 的 结构 体 来 进行 输入 。 由 于 这 里 输入 的 是 float 类 型 的 
数组 ， 因 此 Ne10 中 定义 的 也 是 float 类 型 的 数据 ， 代 码 如 下 : 





ne10_float32_t* in; 
in = (ne10_float32 t*) NE10 MALLOC (nfft * sizeof (ne10_float32 t)); 


为 了 获得 FFT 运 算 后 的 结果 ， 也 需要 构造 出 输出 结构 体 来 接受 FFT 
的 运算 结果 ， 因 为 FFT 的 输出 是 复数 的 结构 ， 分 为 实 部 和 虚 部 ， 所 以 在 
Ne10 中 也 采用 了 复数 的 结构 ， 但 它 是 由 单独 的 结构 体 来 表示 的 ， 代 人 码 如 
下 : 





ne10_fft_cpx_float32 t* out,; 
out = (ne10_fft_cpx_float32 _t*) NE10_ MALLOC (nfft * sizeof 
(ne10_fft_cpx_float32 t)); 





准备 好 以 上 内 容 后 ， 就 可 以 进行 真正 的 FFT 运 算 了 ， 将 输入 的 音频 
时 域 信号 的 float 数 组 拷贝 到 上 述 定 义 的 输入 结构 体 im 中 ， 然 后 调用 Ne10 
这 个 库 提供 的 FFT 运 算 函 数 进行 FFT 运 算 。 注 意 ， 这 里 我 们 使 用 的 运算 
函数 是 实数 到 复数 的 FFT 运 算 ， 这 种 FFT 运 算 更 适合 在 音频 场景 下 做 FFT 
运算 ， 最 终 得 到 的 结果 会 放 到 上 述 分 配 的 结构 体 out 中 ， 代 码 如 下 : 








memcpy(in, input, sizeof(float) * m_nfft); 
ne10_fft_r2c_1d float32 _neon(out, in, cfg); 
for (int i = 0; i < m nfft / 2; i++) { 
output_re[i] = out[i].r; 
output_im[i] = out[i].i; 








经 过 FFT 运 算 之 后 的 结果 就 存在 于 结构 体 out 中 ， 取 出 前 半 部 分 数据 
赋值 给 输出 的 实 部 的 float 数 组 和 虚 部 的 float 数 组 中 。 最 终 在 做 完 所 有 的 
FFT 运 算 之 后 ， 需 要 释放 掉 分 配 的 资源 ， 包 括 FFT 配 置 项 、 输 入 结构 
体 、 输 出 结构 体 ， 代 码 如 下 : 











NE10_FREE(in); 
NE10_FREE (out); 
NE10_FREE (cfg); 





这 类 似 于 iOS 平 台 的 vDSP 的 优化 方案 ，Ne10 提 供 的 FFT 方 案 肯 定 也 
提供 了 道 FFT 的 运算 操作 ， 代 人 码 如 下 : 





for (int i = 0; i < m nfft / 2; i++) { 
out[il,r = input_re[i]; 
out[i].i = input_im[i]; 


ne10_fft_c2r_1d float32_neon(in, out, cfg); 
memcpy(output, in, sizeof(float) * m_nfft); 





从 以 上 代码 可 以 看 到 ， 调 用 逆 FFT 运 算 时 ， 调 用 的 是 c2r 的 FFT 函 
数 ， 即 使 用 从 复数 到 实数 的 转换 函数 来 完成 送 FFT 的 运算 ， 最 终 再 把 训 
这 个 结构 体 中 的 实数 复制 到 整个 函数 的 output 中 ， 即 时 域 信号 的 float 数 


号 O 





8.3， 基 本 乐理 知识 


本 节 来 学 习 基 本 的 乐理 知识 ， 为 什么 要 学 习 乐 理 知识 呢 ? 因为 在 处 
理 声 音 的 时 候 ， 有 一 部 分 是 与 伴 万 或 者 背景 音乐 有 关 的 ， 或 者 与 唱歌 或 
听 歌 处 理 相关 的 ， 这 就 需要 我 们 掌握 一 些 基本 的 乐理 知识 了 。 




















8.3.1 乐谱 


为 了 能 记录 之 前 发 生 的 事情 ， 人 们 撰写 出 了 历史 ， 而 不 是 口 口 相 
传 ， 导 致 后 世 不 知 前 世 之 事 。 类 似 的 问题 发 生 在 各 个 领域 ， 比 如 医学 、 
数学 、 化 学 、 物 理 等 各 个 领域 。 同 样 ， 音 乐 界 也 不 例外 ， 人 们 为 了 能 使 
美好 的 乐曲 保留 下 来 ， 并 且 便 于 学 习 和 交流， 于 是 创造 出 了 各 种 各 样 的 
记 详 方法 ， 而 这 些 记 谱 方法 就是 我 们 所 说 的 乐谱 。 记 详 的 方法 有 很 多 
种 ， 像 壁画 一 样 ， 世 界 各 地 的 人 都 会 创造 首 乐 ， 也 都 会 有 自己 的 记 谱 方 
法 ， 比 如 在 中 国 古代 广 为 流传 的 《 工 尺 谱 》。 但 是 现在 被 我 们 广 为 应 用 
并 且 熟 悉 的 有 两 种 记 谱 方法 ， 一 种 是 用 阿拉 伯 数 字 表 示 的 《简谱 》,， 一 
种 是 国际 上 流行 通用 的 《五 线 谱 》。 


下 面 看 看 《我 是 一 个 粉刷 匠 》 这 前 歌 曲 的 第 一 句 ， 使 用 简谱 记 谱 方 
法 和 五 线 谱 的 记 谱 方法 有 何 区 别 ， 简 谱 记 谱 方 法 如 图 8-11 所 示 。 
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我 是 一 个 粉刷 区， 粉刷 本 领 强 ， 我 要 把 那 新 房子 
图 8-11 


在 图 8-11 中 ， 左 上 角 表 示 节 拍 信息 和 谐 号 。 谱 号 G 表 示 高 音 谱 号 ; 
2/4 代 表 拍 号 ， 每 一 拍 〈 代 表 时 间 长 度 ) 是 四 分 音符 的 时 值 ， 每 一 小 节 
有 了 两 拍 〈 代 表 节 夫人 信息 ) 。 乐 曲 的 第 一 行 表 示 县 体 的 音符 排练 顺序 以 及 
节奏 信息 ，5 3 表示 Sol Mi 两 个 连 起 来 算 作 一 拍 ， 而 小 节 之 间 是 使 用 | 进行 
分 割 的 ， 第 二 个 小 节 的 第 二 拍 do 上 自己 占用 了 这 一 拍 的 时 值 ， 所 以 前 两 个 
小 节 连 接 起 来 就 是 sol mi sol mi sol mi do。 这 是 一 首 儿 歌 ， 音 符 都 在 一 个 
音 组 之 内 《一 个 八 度 之 内 ) ， 而 有 些 歌 曲 可 能 要 跨越 多 个 音 组 ， 对 于 低 
音 束 在 数字 下 面 加 点 来 表示 ， 高 音 则 在 数字 上 面 加 点 来 表示 ， 加 的 点 越 
































多 ， 代 表 越 低 或 越 高 。 五 线 谱 的 记 详 方法 如 图 8-12 所 示 。 
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一 六 


我 是 一 个 粉 剧 区 ,粉刷 本 领 强 ， 归 把 那 新 房 子 ， 
图 8-12 


图 383-12 中 同时 有 简谱 和 五 线 谱 。 下 面 介 绍 五 线 谱 ， 第 一 个 $ 表 示 高 
音 说 号 214 代表 扯 号 ， 每 一 拍 都 是 四 分 音符 ， 每 一 小 节 有 两 拍 ， 其 余 
的 是 谱 表 部 分 。 制 作 五 线 谱 时 ， 首 先 应 画 出 五 根 线 ， 五 根 线 画 出 来 之 后 
中 间 就 形成 四 个 空 x 行 ， 这 在 五 线 谱 中 称 为 间 ， 所 以 五 线 谱 由 五 条 平行 
Re Wd 名 从 下 向 上 依次 是 第 一 
线 、 第 一 间 、 第 二 线 、 三 线 。 第 三 闻 第 四 线 、 第 四 间 、 第 
五 线 。 人 所 表达 
的 音 高 也 不 一 样 。 这 九 个 音 高 必定 不 能 满足 我 们 想 表 达 的 音符 ， 那 应 该 
怎么 办 ?五线谱 普 的 上 边 和 下 边 都 可 以 再 加 线 和 间 ， 向 上 即 所 谓 的 上 加 一 
间 ， 上 加 一 线 ， 直 至 上 加 五 线 ， 回 下 即 所 谓 的 下 加 一 间 ， 下 加 一 线 ， 直 
至 下 加 五 线 。 但 是 ， 即 使 是 这 样 ， 也 只 能 够 表示 29 个 音符 本 来 可 以 表 
示 9 个 音符 ， 上 边 可 以 加 五 间 五 线 ， 下 边 可 以 加 五 间 五 线 ) ， 能 表示 的 
音符 还 不 够 。 因此 就 在 了 谱 号 ， 即 在 五 线 谱 的 最 开始 要 标记 到 底 是 高 音 
谱写 还 是 低音 谱写 或 者 中 音 谱 号 使 用 最 多 的 是 高 音 谱写 和 低 首 谱写 。 高 
音 谱 号 如 图 8-13 所 示 。 


高 音 谱 号 也 称 G 谱 号 。 对 于 高 音 谱 号 ， 下 加 一 线 是 do 〈 中 央 C 的 
do) ， 三 则 就 是 高 八 度 的 do， 上 加 两 线 是 再 高 一 个 八 度 的 do。 关 于 上 度 
数 ， 后 面 会 有 详细 的 介绍 ， 大 家 可 以 理解 为 更 高 的 一 组 音 。 低 音 谱 号 如 












































图 8-14 所 示 。 


图 8-13 


三 = 


图 8-14 


低音 谱写 也 称 F 谱 号 。 对 于 低音 谱写 ， 上 加 一 线 是 do 中 央 C 的 
do) ， 二 间 是 低 八 度 的 do， 下 加 三 线 是 再 低 八 上 度 的 do。 图 8-15 所 示 的 是 
将 简谱 、 五 线 谱 、 唱 名 与 钢 鞭 键盘 男 在 了 一 个 图 中 ， 大 家 可 以 对 照 厦 看 
一 下 ， 以 便 加 深 理 解 。 


不 同 的 谱 号 代表 在 五 线 谱 中 每 个 线 或 者 每 个 间 所 表达 的 首 高 是 不 一 
样 的 。 五 线 谱 是 世界 范围 内 通用 的 记 谱 方法 ， 因 为 它 是 最 科学 、 最 容易 
理解 的 记 谱 方法 。 
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图 8-15 








五 线 谱 由 三 部 分 组 成 ， 分 别 是 谱写 、 谱 表 和 音符 ， 其 中 前 两 部 分 已 
经 介绍 完成 ， 剩 下 的 就 是 音符 。 首 符 比 较 复杂 ， 因 为 它 涉及 的 概念 比较 
多 ， 所 以 下 面 分 别 从 音符 的 音 高 和 时 值 两 个 方面 来 进行 介绍 。 





8.3.2 音符 的 首 高 与 十 二 平均 律 


如 何 描述 一 个 乐谱 ? 常用 的 有 五 线 谱 、 简 谱 等 。 无 论 是 五 线 谱 ， 还 
是 简谱 ， 都 是 表示 音符 的 音 高 和 音符 的 时 值 。 时 值 是 由 节拍 信息 定义 
的 ， 而 本 节 讨 论 的 是 音符 的 音 高 部 分 。 音 符 也 有 两 种 表述 方式 : 第 一 种 
束 是 大 家 经 第 唱 的 do re mi fa sol la si， 即 唱 名 ， 也 是 大 家 最 各 使 用 的 ; 
第 二 种 就 是 音 名 ， 即 CDEFG ARB。 


基本 乐理 的 概念 比较 多 ， 下 面 我 们 逐一 来 理 清楚 。 图 8-16 所 示 的 键 
盘 图 可 以 看 到 一 个 中 央 C 的 日 键 ， 音 名 记 为 cl， 从 cl 同 右 数 ， 一 直 数 到 
c2， 这 一 串 连续 的 音 称 为 一 个 音阶 。 同 时 ，c2 这 个 白 键 所 发 出 声音 的 频 
率 恰 好 是 cl 这 个 白 键 及 出 声音 频率 的 2 倍 。 一 个 首 阶 同时 也 称 为 一 个 音 
组 ， 在 键盘 上 中 央 C 所 在 的 这 个 音 组 称 为 小 字 一 组 ， 疝 右 数 下 去 的 每 个 
组 分 别 是 c2 所 在 的 小 字 二 组 ，c3 所 在 的 音 组 是 小 字 三 组 ，c4 所 在 的 音 组 
古 小 字 四 组 。 那 么 ， 向 相反 的 方 同 数 的 话 ， 即 c 所 在 的 普 组 是 小 字 组 ，C 
所 在 的 音 组 是 大 字 组 ，cl 所 在 的 音 组 是 大 字 一 组 。 可 这 么 多 组 如 何 记 忆 
呢 ? 其 实 很 简单 ， 大 家 只 要 记 住 音 名 就 可 以 了 ， 首 先 找到 比 中 央 C 低 八 
度 的 音 名 为 c 的 这 一 组 ， 所 有 的 音 名 都 是 小 写字 母 表 示 ， 所 以 称 为 小 字 
组 。 从 这 一 音 组 辐 右 数 每 增加 一 个 八 度 音 名 都 会 在 小 写字 母后 加 1， 同 
时 音 组 就 成 为 小 字 几 组 《比如 中 央 C 所 在 的 音 组 成 为 小 字 一 组 ) 。 再 看 
比 中 央 C 低 2 个 八 度 的 音 名 是 C 的 这 一 组 ， 所 有 的 音 名 都 是 大 写字 母 表 
示 ， 所 以 称 为 大 字 组 ， 从 这 一 组 问 左 数 ， 每 低 一 个 人 度 音 名 就 在 大 写字 
母后 边 加 1， 而 所 在 的 首 组 就 是 大 字 几 组 ， 这 样 束 能 比较 简单 地 记 住 首 
名 及 所 有 的 音 组 了 。 


这 里 不 得 不 再 引入 一 个 音程 的 概念 。 音 程 是 指 两 个 音符 之 间 的 音 高 
关系 ， 一 般 用 度 来 表示 。 对 照 图 8-16 中 的 钢琴 键盘 来 看 ， 从 c1 到 cl1 称 为 
一 度 ， 从 cl 到 d1 称 为 两 度 ， 依 此 类 推 。 我们 常 说 从 cl 到 c2 之 间 差 了 八 
度 ， 而 八 度 实际 上 是 指 音程 之 间 的 关系 。 
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图 。8-16 


可 以 数 一 下 ， 所 有 的 键 ( 包 括 黑 键 和 白 键 加 起 来 恰好 是 十 三 个 ， 
而 相 邻 键 之 间 称 为 一 个 半音 ， 即 el 和 f1 之 间 是 一 个 半音 ，cl1 和 d1 之 间 是 
两 个 半 首 即 一 个 全 音 ， 而 从 cl 到 c2 有 12 个 半音 , 这 也 就 引 出 了 即将 和 大 


家 介绍 的 概念 一 平均 2 


十 二 平均 律 亦 称 “ 十 二 等 程 律 "， 世 界 上 把 一 组 音 分 成 十 二 个 半音 音 
程 的 律 制 ， 各 相 邻 两 律 之 间 的 振动 数 之 比 完全 相等 。 

钢琴 就 是 十 二 平均 律 制 的 乐器 ， 国 际 标准 音 规 定 ， 钢 琴 的 al 〈 小 字 
组 的 A 音 ， 其 实 就 是 中 央 C 这 个 音节 的 A 音 ) 的 频率 是 440Hz， 并 且 规 定 
每 相 邻 半音 的 频率 比值 为 2 〈L/12) s1.059463。 根 据 这 两 个 规定 ， 可 以 
得 出 钢琴 上 每 个 蕉 键 音 的 频率 ， 比 如 al 的 左边 的 黑 键 升 g!L 的 频率 为 : 


440/1.059463=415.305Hz 
al 右边 的 黑 键 升 al 的 频率 为 ; 



































440x1.059463=466.16372Hz 


依照 这 种 运算 ， 可 计算 出 a 的 频率 为 220Hz，a2 的 频率 为 880Hz， 人 恰 
好 差 了 12 个 半音 频率 是 一 倍 的 关系 。 这 种 定 音 方 式 就 是 “十 二 平均 律 ”。 
为 什么 钢琴 称 为 乐器 之 王 ， 是 因为 钢琴 的 音域 范围 为 A2 (27.5Hz) 一 
c5 〈4186Hz) ， 几 乎 宫 括 了 乐音 体系 中 的 全 部 乐音 。 


而 有 的 读者 文言 功底 比较 深厚 ， 可 能 知道 中 国 传统 五 声音 阶 为 : 




















宫 gOng、 丙 Shang、 角 juk6、 征 zhi、 羽 yi 





这 是 我 国 五 声音 阶 中 五 个 不 同音 的 名 称 ， 对 应 唱 名 的 话 ， 宫 等 于 
Do， 催 等 于 Re， 角 等 于 Mi， 币 等 于 Sol， 羽 等 于 La， 这 比 现代 乐谱 中 少 
了 Fa 和 Xi 这 两 个 首 。 其 实在 我 们 的 古音 阶 中 ， 变 宫 与 变 币 分 别 对 应 于 Fa 
和 Xi。 关 于 中 国 的 五 声音 阶 最 早 的 记载 出 现在 春秋 时 期 ， 可 见 音 乐 是 不 
分 国界 、 不 分 时 间 的 ， 每 个 国家 都 有 自己 的 乐 律 ， 而 中 国 音乐 史上 和 著名 
的 “三 分 损益 法 ” 束 是 古代 发 明 制定 音律 时 所 用 的 生 律 法 。 











8.3.3 ”音符 的 时 值 


音符 的 时 值 是 指 这 个 音符 所 持续 的 时 间 。 平 时 大 家 衡量 时 间 是 有 单 
位 的 ， 而 音符 是 如 何 体现 自己 的 单位 的 呢 ? 其 实 就 是 长 得 不 一 样 。 音 符 
一 般 由 三 部 分 组 成 ， 即 符 头 、 符 干 、 符 尾 。 下 面 我 们 来 看 一 个 简单 的 音 
符 ， 如 图 8-17 所 示 。 

大 家 应 该 很 熟悉 图 8-17 中 的 这 音符 ， 因为 在 很 多 地 方 都 以 此 音符 


来 表示 音乐 ， 这 个 音符 是 一 个 八 分 符 。 音 符 共 有 多 少 种 表示 呢 ? 请 看 
图 8-18。 
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在 图 8-18 中 ， 一 拍 的 单位 一 般 为 一 个 四 分 音符 ， 用 一 个 实心 符 头 和 
一 个 符 干 表示 。 为 什么 符 干 有 的 向 上 画 ， 有 的 向 下 画 ? 主要 是 为 了 在 五 
线 谱 中 更 加 容易 被 识 谱 者 观察 。 在 五 线 谱 中 规定 符 头 要 左 低 右 高 呈 顶 圆 
形 ， 在 五 线 谱 三 线 以 上 的 符 干 要 癌 下 面 并 且 在 符 头 的 左边 ， 在 三 线 以 下 
的 符 干 要 同上 男 并 且 在 符 头 的 右边 ， 符 杆 的 长 度 一 般 以 一 个 八 度 为 时 


位 。 

















大 家 可 能 觉得 图 8-12 所 展示 的 粉刷 匠 的 五 线 谱 中 的 首 符 并 不 存在 于 
这 个 表 中 ， 不 要 着 急 ， 在 五 线 谱 中 还 有 一 种 画 法 叫 共用 符 尾 ， 像 粉刷 折 
中 的 第 一 个 小 节 就 有 4 个 人 分 音符 共用 一 个 符 尾 。 


还 有 一 些 休止 符 、 变 化 音 等 比较 特殊 的 音符 标记 方法 ， 这 里 不 一 一 
讨论 。 





8.3.4 节拍 


节拍 是 指 强 拍 和 弱 担 的 组 合 规律 ， 有 很 多 有 强 有 弱 的 音 ， 在 长 度 时 
间 内 ， 按 照 一 定 的 顺序 反复 出 现 ， 形 成 有 规律 的 强 弱 变化 ， 使 得 整个 乐 
I 
乐曲 。 


音符 除了 记录 音符 的 首 珊 外 ， 还 要 记录 首 符 的 时 值 。 时 值 的 表示 束 
古 通 过 节操 来 表示 的 。 


拍 号 是 乐谱 小 节 的 书写 标准 ， 在 乐谱 中 以 一 个 分 数 的 形式 来 表示 。 
比如 4/4， 分 母 的 4 表示 以 一 个 四 分 音符 为 一 拍 ， 分 子 的 4 表示 每 小 节 有 
四 拍 。 其 实 拍 号 是 一 个 相对 的 时 间 单 位 ， 它 只 能 表示 每 一 个 小 节 里 有 几 
个 拍子 以 及 每 个 拍子 的 时 值 。 但 是 ， 有 具体 占 多 长 时 间 该 怎么 表示 呢 ? 这 
又 要 引入 另外 一 个 概念 ， 即 BPM。 


BPM (Beat Per Minute) ， 即 每 分 钟 节拍 数 的 单位 。 最 浅显 的 理解 
就 是 在 一 分 钟 时 间 内 声音 节拍 的 数量 (相当 于 拿 一 个 节拍 器 在 一 分 钟 之 
内 发 出 节拍 的 数量 ) ， 这 个 数量 的 单位 便 是 BPM， 也 叫 拍 子 数 。BPM 
就 是 每 分 钟 的 节拍 数 ， 是 全 曲 速 度 标 记 ， 是 独立 在 曲谱 外 的 速度 标准 ， 
一 般 以 一 个 四 分 音符 为 一 拍 ，60BPM 为 一 分 钟 演奏 均匀 60 个 四 分 音符 
(或 等 效 的 音符 组 合 ) 。 由 于 60BPM 对 应 的 曲目 速度 为 一 分 钟 均匀 演奏 
60 个 四 分 音符 (或 等 效 音符 组 合 ) ， 所 以 一 个 四 分 音符 (或 等 效 音符 组 
合 ) 的 时 值 应 为 1 秒 ， 而 对 应 的 提供 给 演奏 者 显示 的 演奏 速度 。 一 般 情 
况 下 ， 歌 曲 分 为 慢 速 (节奏 ) 歌曲 、 中 速 歌曲 、 快 速 〈 节 奏 ) 歌曲 ， 对 
nn 
108 一 208 拍 。 


















































8.3.5 MIDI 格 式 


MIDI (Musical Instrument Digital Interface， 乐 器 数字 接口 ) ， 是 20 
世纪 80 年 代 初 为 解决 电 声乐 器 之 间 的 通信 问题 而 提出 的 。MIDI 是 编 曲 
界 最 广泛 的 音乐 标准 格式 ， 可 称 为 计算 机 能 理解 的 乐谱 。 它 用 音符 的 数 
字 控 制 信 号 来 记录 音乐 ， 一 首 完整 的 MIDI 音 乐 只 有 几 十 KB， 而 且 能 
含 数 十 条 音乐 轨道 。MIDI 中 存储 的 不 是 声音 ， 而 是 音符 、 控 制 参 数 等 
站 令 ， 能 解析 MIDI 的 设备 会 根据 MIDI 文 件 中 的 指令 来 播放 。 具 体 音 符 
在 MIDI 中 是 如 何 表示 的 呢 ? 可 以 使 用 一 张 键盘 图 来 了 解 首 符 对 应 的 
MIDI 的 名 字 以 及 MIDI 值 ， 如 图 8-19 所 示 。 


从 图 8-19 可 以 看 到 ， 中 央 C 的 频率 为 261.63Hz， 而 所 对 应 的 MIDI 名 
称 是 C4， 对 应 的 MIDI 值 是 60。 对 于 MIDI 值 ，MIDI 的 名 称 该 如 何 记忆 
呢 ? 其 实 很 简单 ， 前 面 在 讲 音 组 时 ， 己 经 知道 键盘 最 低 的 音 组 是 大 字 二 
组 (当然 大 字 二 组 只 有 A 和 B 两 个 音 ) ， 大 字 二 组 的 第 一 个 音 A 就 是 
MIDI 的 A0， 第 二 个 音 B 就 是 MIDI 的 B0。 在 图 8-19 中 ， 向 下 数 就 可 以 数 
出 所 有 的 MIDI 名 称 。 而 对 于 MIDI 值 ， 我 们 只 要 记 住 中 央 C (cl1) 的 
MIDI 值 是 60 或 者 小 字 一 组 的 A 音 〈al) 是 69， 然 后 根据 十 二 平均 律 就 可 
以 全 部 计算 出 来 。 


具体 的 MIDI 制 作 就 不 在 这 里 详细 展开 了 ， 可 以 使 用 茶 一 些 电子 钢 
和 苍 ， 甚 至 现在 有 一 些 App 都 可 以 将 乐 者 弹 奏 的 音符 《包括 音 高 和 时 值 ) 
记录 下 来 。 那 我 们 解析 出 了 对 应 的 时 间 上 的 音符 能 做 什么 呢 ? 其 实 有 很 
多 种 用 处 ， 如 末 我 们 知道 一 首 歌曲 对 应 的 MIDI 人 信息， 在 K 歌 应 用 中 就 可 
以 给 用 户 做 打分 ， 即 评 调用 户 唱 的 音 高 和 MIDI 中 的 音 高 是 售 匹 配 ， 从 
而 作为 打分 的 依据 ， 也 可 以 进行 一 些 市 奏 修 正和 首 亢 修正 ， 因 为 MIDI 
中 包含 了 时 间 信 息 和 音 高 信息 ， 我 们 可 以 对 用 户 唱 的 歌曲 进行 对 齐 市 到 
和 修正 音 高 等 操作 。 


下 一 节 开 始 会 介绍 混 首 效果 器 ， 以 让 大 家 了 解 具 体 的 混 首 过 程 ， 帮 
助 大 家 对 声音 做 出 更 好 的 处 理 。 



























































Note 
name Keyboard 





Frequency 


27.500 
30.868 
32.703 
36.708 
41.203 
43.654 
48.999 
55.000 
61.735 
65.406 
73.416 
82.407 
87.307 
97D99 
110.00 
123.47 
130.81 
146.83 
164.81 
174.61 
196.00 
220.00 
246.94 
261.63 
293.67 
329.63 
349.23 
392.00 
440.00 
493.88 
523.25 
587.33 
659.26 
698.46 
783.99 
880.00 
987.77 
1046.5 
1174.7 
1318.5 
1396.9 
1568.0 
1760.0 
i975 
2093.0 
2349.3 
2637.0 
Z193.0 
3136.0 
3520.0 
3951.1 
4186.0 


29.135 


34.648 
38.891 


46.249 
51.913 
58.270 


69.296 
7 多 


92.499 
103.83 
116.54 


138.59 
155.56 


185.00 
207.65 
233.08 


277.18 
311.13 


369.99 
415.30 
466.16 


554.37 
622.25 


739.99 
830.61 
932.33 


1108.7 
1244.5 


1480.0 
1661.2 
1864.7 


2217,5 
2489.0 


2960.0 
3322.4 
3729.3 


Period 


2.703 
2.408 
2.145 


1.804 
1.607 


5 
04 
J3 


te 


1 
Ls 


一 ID 


0.9020 
0.8034 


0.6757 
0.6020 
0.5303 


0.4510 
0.4018 


0.3378 
0.3010 
0.2681 





图 8-19 


8.4 ” 泥 首 效果 强 


在 音乐 类 App 中 ， 进 行 混 音 处 理 是 必 不 可 少 的 一 项 工作 ， 而 混 音 这 
门 学 科 也 是 非常 复杂 的 。 作 为 一 个 优秀 的 混 音 师 ， 不 仅 要 有 编 曲 经 验 ， 
而 且 要 会 乐器 懂 乐 理 ， 还 要 能 分 辨 什么 样 的 声音 是 好 声音 ， 同 时 会 使 用 
混 音 的 工具 。 丁 会 介绍 一 些 混 音 中 的 基础 知识 ， 包 括 一 些 常 用 混 音 工 
具 的 使 用 。 











8.4.1 均衡 效果 器 


均衡 效果 器 又 称 为 均衡 器 (Equalizer) ， 其 最 大 的 作用 束 是 决定 声 
音 的 远近 层次 。 我 们 时 篆 听 到 别人 说 这 首 歌曲 是 重金 属 风格 的 歌曲 ， 或 
者 说 这 首 歌曲 是 舞曲 风格 等 ， 其 实 束 与 声音 的 远近 层次 有 关 。 不 同 歌 曲 
风格 的 区 别 在 于 声音 在 不 同 频 段 的 提升 或 衰减 。 


均衡 效果 器 具有 美化 声音 的 作用 ， 即 调整 音色 ， 每 个 人 由 于 自身 声 
道 、 颅 腔 、 口 腔 的 形状 不 同 ， 导 致 译 色 不 同 。 如 果 这 个 用 户 所 发 出 的 声 
音 在 低频 部 分 比较 薄 弦 ， 就 可 以 在 低频 部 分 予以 增强 ， 使 得 整个 声音 听 
起 来 更 加 温暖 ， 那 个 用 户 所 发 出 的 声音 在 高 频 部 分 义 过 于 强烈 〈 薄 
弱 ) ， 则 可 以 在 高 频 部 分 予以 减弱 〈 增 强 ) ， 可 以 使 声音 听 起 来 不 那么 
刺耳 “更 加 距 亮 ) 。 当 然 ， 专 家 级 别 的 混 音 师 在 为 歌手 处 理 后 期 混 音 
时 ， 会 有 更 复杂 的 调节 方法 ， 比 如 这 个 歌手 的 声 首 低频 部 分 有 瑕 冰 ， 可 
以 提高 中 频 部 分 来 掩盖 有 瑕 间 的 低频 段 的 声音 。 


均衡 器 最 早 是 用 来 补偿 频率 缺陷 的 ， 因 为 那 时 音频 设备 的 信号 品质 
很 差 ， 在 传输 过 程 中 损失 非常 严重 ， 到 最 后 除非 进行 信号 补偿 ， 否 则 信 
写 束 会 变 得 极 差 。 而 现在 均衡 器 更 多 的 应 用 在 掩盖 歌手 的 茶 一 个 频段 的 
声 首 缺陷 ， 或 者 增强 某 一 个 频段 的 声 首 优势 上 。 


接 下 来 看 一 下 声音 的 频率 分 布 。 


1) 超 低 频 。1 一 20Hz 范 围 ， 大 约 是 4 个 八 度 的 范围 。 这 个 声音 ， 人 
的 耳 杂 是 听 不 到 的 ， 如 果 音 量 很 大 ， 我 们 的 耳 休 能 够 感觉 到 一 种 压力 
> 比如 地 震 就 可 以 产生 这 种 频率 。 一 般 来 说 ， 这 个 频段 和 音乐 没有 关 


2) 非常 低频 。20 一 40Hz 范 围 ，1 个 八 度 〈 频 率 差 两 倍 ) 的 范围 。 这 
个 频率 也 是 很 低 的 ， 一 般 远 距离 的 雷 声 以 及 风声 在 这 个 频段 里 。 这 个 频 
段 的 音效 ， 在 音乐 中 还 是 会 经 常用 到 的 。 

3) 低频 。40 一 160Hz 范 围 ，2 个 八 度 的 范围 。 电 贝斯 的 声音 属于 这 
个 频段 ， 当 然 ， 低 首 提 鞭 、 钢 鞭 也 拥有 这 个 音域 。 这 束 是 音乐 中 和 常用 的 
频段 了 。 男 低 首 也 可 以 发 出 这 个 频段 中 的 一 部 分 声音 。 


4) 低 中 频 。160 一 315Hz 范 围 ，1 个 八 度 。 这 个 八 度 音 ， 男 中 音 可 以 





















































发 出 。 单 鞭 管 、 巴 松 管 、 长 稍 也 拥有 这 个 频段 的 声音 。 


5) 中 频 。315 一 2500Hz 范 围 ，3 个 八 度 。 这 是 人 耳 最 容易 接受 的 声 
音频 段 。 我 们 从 电话 听 简 里 听 到 的 声音 一 般 束 属于 这 个 频段 。 如 果 没 有 
低频 和 高 频 ， 单 独 听 这 个 频段 ， 是 很 干涩 的 。 


6) 中 高 频 。2500 一 5000Hz 范 围 ，1 个 八 度 。 人 耳 对 这 段 音 程 是 最 敏 
感 的 。 声 音 的 清晰 度 和 透明 度 都 是 通过 这 个 频段 来 决定 的 。 音 乐 的 音量 
也 主要 由 这 个 频段 影响 ， 人 声 的 泛音 也 会 在 这 个 频段 出 现 。 如 公共 广播 
用 的 喇叭 就 是 专门 设计 成 3000Hz 左 右 的 频段 。 


7) 高 频 。5000 一 10000Hz 范 围 ，1 个 八 度 。 这 个 频段 会 使 音乐 更 明 
多 种 高 音乐 器 都 拥有 这 个 频段 的 声音 ， 人 的 唇齿 音 也 在 这 个 频段 




















内 。 

8) 超 高 频 。10000 一 20000Hz 范 围 ，1 个 八 度 。 这 是 可 上 听 频 率 范 围 内 
最 高 的 音程 ， 需 要 很 高 的 泛音 才 可 以 达到 这 个 范围 ， 在 音乐 中 很 少见 ， 
而 且 人 耳 对 这 个 频段 很 难 辨 别 。 但 是 ， 这 个 频段 丰富 的 泛音 可 以 作用 于 
其 他 频段 的 声音 ， 对 音色 有 很 大 的 影响 。 


了 解 了 声音 的 分 布 之 后 ， 我 们 可 以 使 用 最 简单 的 Audacity 工 具 打 开 
一 段 声音 ， 在 荣 单 中 的 特效 选项 下 选择 均衡 (Equalizer) ， 可 以 看 到 均 
衡 堪 的 调节 沫 单 ， 如 图 8-20 所 示 。 





























@ 绝 抽 由 线 (D】 人) 图形 化 均衡 (G) 癌 线性 频率 缩放 IN) 过 济 长 度 站 一 一 一 一 盖 一 一 一 4001 
选择 曲线 (S): 保存 /管理 曲线 ..(A) 上 下 翻转 () | 加 显示 网 格 (R) 
预览 V) 取消 (C) 
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图 8-20 


在 图 8-20 中 ， 中 间 部 分 有 一 个 曲线 ， 横 轴 是 频率 ， 纵 轴 是 dB (0dB 
以 上 代表 增强 ，0dB 以 下 代表 减弱 )， 如 果 我 们 点 击 变 平坦 按钮 ， 会 看 
到 这 个 曲线 是 在 0dB 上 的 一 条 水 平 的 直线 ， 如 果 我 们 打开 选择 曲线 的 菜 
单 ， 则 会 看 到 一 些 默认 的 曲线 ， 其 中 包括 以 下 曲线 。 


.Bass Boost: 低音 增强 ; 

.Bass Cut: 低音 截断 (类 似 于 高 通 滤波 器 ); 

“Treble Boost: 高 音 增强 ; 

“Treble Cut: 高 音 截断 〈 类 似 于 低 通 滤波 器 ) ; 

Telephone: 代表 电话 音质 〈 矣 率 分 布 在 400 一 3000Hz 范 围 ) ; 

.AM Radio: 代表 收音 机 音质 〈 频 率 分 布 在 50 一 400Hz 范 围 ) 。 

选择 其 中 一 个 预制 的 效果 器 可 以 看 到 曲线 的 变化 ， 点 击 预览 按钮 可 
以 对 加 入 这 个 效果 器 的 音频 效果 进行 预览 。 当 然 ， 可 以 拖 电 曲线 来 对 某 


一 个 频率 进行 增强 或 者 减弱 ， 然 后 进行 预览 。 也 可 以 选择 图 形 化 的 均衡 
单 选 框 ， 如 图 8-21 所 示 。 


20Hz 40Hz61Hz 100Hz 200Hz 400Hz 1000Hz 2000Hz 4000Hz 10000Hz 


图 8-21 


在 图 8-21 中 出 现 了 各 种 频率 上 的 滑动 块 ， 可 以 通过 滑动 块 来 将 这 个 
频率 的 声音 增强 或 减弱 。 同 时 从 图 8-21 所 示 的 曲线 上 还 可 以 看 到 ， 调 整 
完毕 之 后 点 击 预览 按钮 可 以 试听 效果 ， 如 采 最 终 确 定 了 所 有 参数 ， 全 
J 组 均衡 效果 器 作用 到 声音 上 试听 整个 声音 的 效 








十 面 描述 了 Audacity 工 具 如 何 使 用 均衡 器 米 修 正 声音 ， 接 下 来 重 扩 
分 析 我 们 需要 对 均衡 器 设置 哪些 参数 。 


最 直观 的 参数 就 是 频率 ， 即 修正 (增强 或 者 减弱 ) 哪 一 个 频率 附近 
的 声音 ， 所 以 第 一 个 最 主要 的 参数 就 是 fredquency〈 人 代表 哪 一 个 频率 ) 。 





如 何 修正 昵 ? 可 以 使 用 参数 gain〈 人 代表 增益 是 多 少 ) ， 除 该 参数 外 ， 还 
有 一 个 参数 可 以 使 用 ， 即 bandWidth 〈 代 表 频 宽 ) 。 均 衡器 修正 的 不 是 
某 个 单一 频率 上 的 声音 而 是 一 个 频段 的 声音 。 所 谓 频 段 就 是 以 一 个 频率 
作为 中 心 点 左右 扩充 一 定 的 频率 ， 就 形成 了 一 个 频段 ， 具 体 这 个 频段 有 
多 大 ， 可 用 bandWidth 来 表示 。bandWidth 常 用 的 表示 单位 有 两 个 : 一 个 
是 O0， 即 Octave， 代 表 一 个 音程 即 一 个 八 度 。 基 本 乐理 中 我 们 摘 述 过 ， 
一 个 八 度 体 现在 频率 上 就 是 2 倍 的 频率 ， 如 果 我 们 定义 的 中 心 频率 为 
2kHz， 频 宽 为 1.0 (单位 为 Octave)， 增 益 为 3dB， 那 么 对 应 到 图 中 的 曲 
线 就 是 从 1kHz 开 始 上 升 ， 到 2kHz 上 升 到 峰值 3dB， 到 3kHz 以 后 就 不 再 上 
升 ， 这 完全 描述 了 这 个 频段 的 增强 。 另 外 一 个 是 Q， 即 Quality 

Factor (质量 系数 ) ， 代 表 一 个 音程 调整 的 有 效 影 响 斜 率 ， 也 就 是 大 家 
和 党 说 的 Q 值 ， 其 实 这 和 前 面 第 一 种 表示 方法 想 达 到 的 效果 是 一 样 的 。 实 
际 上 ，Q 和 O 有 一 定 的 换算 关系 的 ， 因 为 我 们 在 不 同 的 平台 或 者 开源 算 
法 中 使 用 EQ 的 时 候 不 一 定 知道 要 填 入 的 bandWidth 单 位 是 什么 ， 所 以 我 
们 要 知道 两 者 是 如 何 进 行 换 算 的 。 若 我 们 知道 O 值 (有 多 少 个 八 度 ) ， 
那么 如 何 计算 出 Q 值 ， 可 如 式 (8-1)〉 所 示 。 
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如 果 知 道 Q 值 ， 那 么 如 何 计 算出 O 值 (有 多 少 个 八 度 ) ， 可 如 式 
(8-2) 所 示 。 


| |og Ne + 
yy | 4 
log2 log2 


bg2=030103 





从 式 8-1 和 式 8-2 两 个 公式 可 以 知道 ， 只 要 给 出 任意 一 个 值 ， 就 可 以 
计算 出 尹 外 一 个 值 。 


均衡 效果 器 的 作用 以 及 应 用 场景 大 家 已 基本 清楚 了 ， 本 节 只 是 均衡 
器 的 一 个 入 门 ， 混 音 师 真正 使 用 均衡 器 的 时 候 ， 很 少 会 对 某 个 频段 上 的 
声音 进行 能 量 增强 ， 反 而 会 把 其 他 频段 上 的 声音 能 量 进行 衰减 ， 所 以 在 
使 用 的 时 候 ， 并 不 是 一 味 地 增加 能 量 ， 而 要 根据 具体 情况 具体 分 析 。 下 
面 会 讨论 如 何在 Android 和 iOS 平 台 上 实现 均衡 效果 器 。 

















8.4.2 ”压缩 效果 器 


压缩 效果 器 又 称 为 压缩 器 〈Compressor) ， 是 指 在 时 域 上 对 声音 强 
上 度 所 进行 的 一 个 处 理 。 压 缩 器 也 可 以 简单 地 理解 为 : 当 音 频 的 音量 剧 增 
的 时 候 ， 上 自动 将 音量 调 小 一 点 。 压 缩 器 就 是 改变 输入 信号 和 输出 信号 电 
平 大 小 比率 的 效果 占 ， 如 图 8-22 所 示 。 
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在 图 8-22 中 ， 最 重要 的 一 个 概念 是 门限 值 CThreshold) ， 即 只 有 达 
到 这 个 门限 值 才 会 进入 压 纵 器 的 工作 范围 ， 整 体 增 益 〈Unity Gain ) 驶 
是 输入 信号 和 输出 信号 完全 一 样 ， 也 就 是 对 输入 信 合 不 做 任何 改变 ， 即 
压缩 比 为 1 : 1。 这 就 又 提 到 了 另外 一 个 重要 的 概念 ， 即 压缩 比 。 这 个 概 
念 很 简单 ， 可 以 理解 为 图 中 直线 的 和 斜率。 如 果 将 压缩 比 调整 为 2 : 1， 大 
于 门限 值 的 输入 信号 将 以 2 : 1 的 比例 被 压缩 ， 比 如 2dB 的 输入 信号 在 经 
过 压缩 器 后 就 被 压缩 掉 了 1dB， 这 也 就 是 图 8-24 中 的 2 : 1 这 条 曲线 ; 但 
如 果 将 压缩 比 改 为 20 : 1 的 曲线 ， 即 比率 设置 成 为 20 : 1， 这 时 压缩 器 就 
变 成 一 个 限制 器 ， 输 入 信号 经 过 门限 值 之 后 每 增加 20dB 的 电 平 ， 输 出 只 
能 增加 1dB。 所 谓 限 制 器 就 是 常 说 的 峰值 限制 器 (Peak Limiter) 。 在 压 





缩 器 中 还 有 两 个 非常 重要 的 参数 ， 一 个 是 作用 时 间 (Attack Time) ， 男 
外 一 个 是 释放 时 间 (Release Time) 。 下 面 分 别 介 绍 这 两 个 参数 的 意 
> 


作用 时 间 (Attack Time) ， 又 称 起 始 时 间 ， 用 于 诀 定 压缩 右 在 超过 
门限 值 后 多 久 会 触发 压缩 器 来 工作 。 前 面 说 过 ， 超 过 门限 值 之 后 就 到 了 
压缩 右 的 工作 范围 ， 但 是 不 代表 压缩 妖 就 会 立马 工作 ， 而 这 里 的 起 始 时 
间 实 际 上 就 是 触发 压缩 器 工作 的 时 间 。 为 什么 要 使 用 这 个 参数 来 触发 压 
给 右 工 作 ? 假设 输入 电 平 有 一 个 瞬时 峰值 压缩 怖 就 进入 工作 ， 那 么 这 束 
达 不 到 压缩 右 的 最 初 目的 ， 因 为 压缩 器 的 存在 就 是 为 了 让 整个 音频 作品 
平稳 地 在 一 定 的 能 量 范围 内 ， 所 以 设置 一 个 起 始 时 间 ， 让 压 纵 器 躲 过 这 
些 瞬时 峰值 而 持续 工作 。 


释放 时 间 (Release Time) 和 起 始 时 间 正 好 相反 ， 饭 决定 了 压缩 器 
在 低 于 门限 信号 多 长 时 间 之 后 停止 工作 ， 如 果 释 放 时 间 过 短 ， 那 么 在 信 
号 低 于 门限 之 后 ， 压 缩 器 会 立即 停止 工作 ， 就 会 导致 抽 泵 现象 ， 声 音 听 
起 来 会 非常 不 舒服 。 


最 后 一 个 参数 就 是 输出 增益 (Output Gain) ， 即 增益 补偿 ， 比 如 我 
们 压缩 了 3dB 的 增益 ， 然 后 使 用 增益 补偿 提升 了 整个 输出 信号 ， 就 可 以 
将 压缩 挥 的 动态 空间 补偿 回来 。 


明白 了 以 上 参数 之 后 ， 下 面 使 用 Audacity 工 具 打 开 一 个 音频 文件 ， 
然后 在 特效 的 表单 中 选择 压缩 费 ， 如 图 8-23 所 示 。 
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在 图 8-23 中 ， 参 数 噪 声 底 可 以 不 用 去 管 ， 其 余 可 以 调整 的 参数 包括 
靖 值 (上面 所 讲 的 门限 值 ) 、 比 率 〈 压 缩 比 ) 、 上 升 时 间 
(AttackTime) 、 衰 减 时 间 〈releaseTime) ， 而 压缩 后 增长 到 0dB 就 是 
上 面 所 讲 的 输出 增益 ， 我 们 可 以 上 自己 调节 这 几 个 参数 来 观察 曲线 的 变 





化 ， 点 击 预览 可 以 试听 效 末 ， 如 果 效 果 满 意 ， 点 击 确定 可 以 将 压缩 器 作 
用 到 音频 文件 中 。 


在 日 名 工 作 中 ， 压 缩 器 可 以 以 多 种 其 他 效果 噩 的 形式 出 现 ， 但 是 原 
理 都 是 一 样 的 ， 比 如 上 面 所 提 到 的 峰值 限制 器 (Peak Limiter) ， 将 压缩 
比 调整 到 足够 大 《一般 我 们 认为 压缩 比率 在 20 : 1 以 上 的 压缩 器 就 是 限 
制 器 〉 的 压缩 效果 器 就 是 一 个 峰值 限制 占 。 除 此 之 外 ， 层 齿 音 消除 器 
(De-Esser) 也 是 一 种 应 用 场景 ， 因 为 唇齿 首 一 般 都 是 /ci/、/si/ 等 高 频 的 
声音 ， 频 率 范 围 一 般 为 4 一 8kHz， 做 一 个 可 调频 率 的 压缩 效果 器 来 压缩 
特定 的 频率 ， 可 以 将 这 些 人 声 中 的 叶 叶 声 衰 减 掉 ， 从 而 达到 悦耳 的 效 
果 。 另 外 还 有 噪声 门 (Nosie Gate) 也 是 压缩 器 的 一 种 应 用 场景 ， 即 我 
们 规定 一 个 门限 值 ， 门 限 以 上 的 声音 可 以 通过 ， 门 限 以 下 的 声音 被 视 为 
噪音 被 完全 切 掉 ， 这 也 是 压缩 效果 器 的 另外 一 种 特殊 应 用 场景 。 








8.4.3 ” 混 啊 效果 殴 


混 响 效果 器 叉 称 为 混 响 器 (Reverb) ， 但 在 介绍 混 响 效果 器 之 前 先 
讨论 一 下 什么 是 混 啊 。 大 部 分 场景 下 都 会 产生 泥 响 ， 我 们 可 以 设想 老师 
讲课 的 一 个 场景 ， 老 师 的 声音 经 过 多 次 反射 ， 假 如 有 5 条 声音 反射 线 
(实际 上 有 成 干 上 万 条 〉 到 达 学 生 耳 条 ， 老 师 每 说 1 句 话 ， 学 生 实 际 上 
听 到 的 就 是 6 句 话 〈1 句 话 直接 传 到 学 生 耳 人 东 里 ， 还 有 反射 的 5 句 话 ) ， 
但 是 由 于 这 些 反 射 声 到 达 的 时 间 间 隔 太 近 ， 所 以 学 生 实际 上 分 ) 辩 不 出 6 
句 话 ， 而 起 1 和 9] 带 有 混 啊 感觉 的 话 。 混 啊 效 果 器 束 是 这 样 工 作 的 ， 把 很 
多 路 声音 《由 于 经 过 不 同 的 反射 源 反 射 ， 所 以 能 量 不 同 ) 进行 很 多 次 的 
登 加 (因为 反射 的 距离 有 长 有 短 ， 所 以 到 达 昕 者 耳 条 的 时 间 不 同 ， 闭 加 
的 时 间 也 不 同 ) 。 混 明 器 咒 是 捷 受 一 个 输入 的 声音 ， a 
算 ， 束 可 以 达到 6 种 声音 《实际 上 是 成 干 上 万 种 声音 ) 阁 加 的 效果 。 这 
里 所 谓 的 某 种 计算 在 数学 中 叫做 : 卷 积 ”计算 ， ， ee 如 
果 把 老师 的 声音 看 作 一 个 单一 的 脉冲 ， 通 过 计算 之 后 得 到 一 个 完整 的 声 
波 ， 如 图 8-24 所 示 。 
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图 8-24 
在 图 8-24 所 示 的 这 个 脉冲 图 中 束 含 有 6 个 脉冲 (实际 上 是 成 于 上 万 
个 脉冲 〉 的 声波 ， 也 就 是 在 这 个 房间 里 ， 从 老师 到 学 生 座 位 的 混 啊 特 


征 s 在 声学 上 ; ee 所 以 称 为 脉冲 反 
应 ， 即 impulse response， 简 称 IR。 很 显然 ， 在 不 同 的 空间 里 这 个 脉冲 图 


并 不 相同 ， 也 就 是 说 ， 不 同 空间 里 的 混 啊 特征 不 同 ， 更 进一步 也 说 就 是 
不 同 空间 里 的 了 极 不 同 。 我 们 将 一 个 输入 声音 作为 源 声 音 ， 这 个 声音 通过 
与 JR 卷 积 得 到 的 结果 惑 是 这 个 声音 源 在 这 个 混 啊 空间 内 所 产生 的 最 终 混 
啊 结 果 。 其 实 ， 几 乎 在 任何 场景 下 都 会 产生 混 啊 ， 只 不 过 有 一 些 混 啊 效 
果 在 人 的 耳 杀 里 不 太 容 易 分 辨 ， 像 比较 专业 的 录音 棚 里 ， 墙 壁 上 做 了 很 
多 突出 的 吸音 可 ， 可 以 最 大 限度 地 减 小 混 啊 的 影响 ， 而 在 混 音 阶段 再 给 
作品 增加 混 啊 。 


在 浴室 中 发 出 一 个 声音 ， 最 终 我 们 听 到 的 声音 其 实 是 代表 浴室 这 个 
空间 的 混 啊 特征 。 在 小 礼 莹 里， 或 者 在 一 个 非常 开阔 的 大 舞台 上 唱歌 ， 
听 到 的 混 啊 效果 肯定 不 同 。 总 之 ， 每 个 空间 都 有 目 己 独特 的 混 啊 特征 ， 
也 就 是 有 自己 独特 的 IR。 为 了 模拟 出 各 个 空间 的 混 啊 效果 ， 也 束 是 为 了 
定制 出 不 同 的 场景 温 啊 ， 我 们 可 以 制定 不 同 场 景 下 的 IR， 然 后 将 声 首 源 
与 特定 场景 下 代表 的 IR 进 行 卷 积 ， 这 样 束 可 以 得 到 这 个 场景 下 的 泥 啊 效 
朵 。 那 如 何 确 定 特 定 场 景 下 的 IR 呢 ? 


第 一 种 就 是 采样 I[R 混 响 ，Sony、Yamaha 都 出 过 采样 混 响 。 采 样 混 
啊 全 部 是 真实 采样 得 来 的 wave 文 件 ， 可 以 存放 在 任何 存储 器 ， 采 样 混 啊 
的 IR 都 由 录音 末 样 得 来 。 在 想 要 获得 混 啊 特征 的 地 方 ， 例 如 小 礼堂、 首 
乐 厅 舞台 上 安置 音箱 ， 座 位 席 中 安置 立体 声 话 简 ， 然 后 播放 一 系列 测试 
信号 ， 以 脉冲 信号 为 主 ， 各 种 速度 的 全 频段 正弦 波 连 续 扫 描 为 辅 ， 录 得 
声音 ， 然 后 经 过 计算 得 到 IR。 用 这 种 采样 方法 得 到 的 IR， 是 最 真实 也 是 
效果 最 好 的 一 和 种， 当然 这 种 IR 的 制作 也 是 极为 昂贵 的 。 


第 二 种 束 古 算法 混 响 ， 也 是 最 常见 的 温 啊 效果 帮 ， 目 前 大 多 数 数字 
混 啊 效果 器 以 及 软件 混 啊 都 是 这 种 类 型 的 。 这 类 混 啊 需 昌 然 不 带 有 真实 
的 IR， 但 是 提供 了 很 多 方法 让 你 对 它 目 带 的 原始 脉冲 序列 进行 修改 ， 比 
如 通过 改变 空间 大 小 、 早 反射 时 间 、 衰 减 时 间 、 阻 尼 等 参数 来 修改 IR， 
以 达到 控制 混 啊 效果 的 目的 。 为 了 性 能 的 考虑 ， 这 种 IR 的 脉冲 个 数 是 有 
限 的 ， 并 不 会 像 第 一 种 采样 混 啊 中 有 无 限 的 脉冲 信和 号 。 


为 了 方便 研究 ， 声 学 上 把 混 啊 分 为 几 个 部 分 ， 并 规定 了 一 些 习 惯 
语 。 混 响 的 第 一 个 声音 是 直达 声 (Direct Sound) ， 也 就 是 源 声音 ， 在 
效果 器 里 叫 dry _ out 〈 王 声 输出 ) ， 随 后 的 几 个 相隔 比较 开 的 声音 叫 “ 早 
反射 声 ”(Early Reflected Sounds) ， 它 们 都 是 只 经 过 几 次 反射 就 到 达 的 
声音 ， 声 音 比 较 大 ， 比 较 明显 ， 它 们 能 够 有 反映 空间 中 的 源 声音 、 耳 条 及 
墙壁 之 间 的 距离 关系 。 后 面 的 一 堆 连 绢 不 绝 的 声音 叫做 reverberation。 
大 多 数 泥 啊 效 果 器 会 有 一 些 参数 选项 给 你 调节 ， 现 在 就 来 讲 讲 这 些 参 数 






















































































的 具体 意义 。 
(1) 空间 大 小 (Room Size ) 


空间 可 以 体现 出 声场 的 宽度 和 纵深 度 ， 不 同 的 效 末 圳 在 该 参数 上 有 
不 同 的 算法 体现 ， 且 该 参数 非常 重要 。 


(2) 余 啊 大 小 〈Reverbrance ) 

如 果 早 反射 声 可 以 决定 空间 的 距离 ， 那 么 余 啊 可 代表 空间 的 构造 ， 
即 空间 里 的 物体 多 少 、 墙 壁 的 材质 、 墙 壁 及 室内 物体 的 表面 材质 越 松 
软 ， 代 表 吸 音 的 能 力 越 强 ， 余 啊 越 小 。 

(3) 阻尼 控制 (Damping) 

阻尼 控制 代表 混 啊 声音 减弱 的 程度 ， 对 应 到 实际 场景 中 就 是 场景 里 
的 物体 多 少 。 物 体 越 多 ， 旦 物体 表面 越 不 光滑 ， 衰 减 就 越 厉害， 可 以 根 
据 我 们 想 要 得 到 的 实际 场景 去 设置 这 个 参数 。 

(4) 干 湿 比 (Dry Wet Mix Ratio) 

有 的 混 啊 算法 会 有 这 个 参数 ， 干 信号 表示 原始 信号 ， 湿 信号 表示 泥 
啊 信 号 ， 而 干 湿 比 就 是 代表 最 终 输 出 信号 的 干 声 和 湿 声 的 比例 。 设 置 为 
100%， 则 意味 着 只 要 湿 声 不 要 干 声 。 






























































(5) 立体 声 宽度 (Stereo Width) 


有 的 混 啊 效果 器 有 这 样 的 参数 ， 如 末 把 这 个 值 设 大 ， 那 么 效果 器 在 
产生 IR 的 时 候 会 使 左右 声 道 差 异 变 大 ， 最 终 束 会 产生 立体 声 的 感觉 。 


和 前 面 的 操作 一 样 ， 也 是 打开 Audacity， 在 特效 菜单 中 选择 
Reverb， 如 图 8-25 所 示 。 











Room Size (%): 8 
Pre-delay (ms): 日 
Reverberance (%): 加 
Damping (%): 自 


Tone Low (%): |100 | 





Tone High (%): |100 | 四 


Wet Gain (dB): |-1 | 12 
Dry Gain (dBj: |-1 | 12| < 
Stereo Width (%): 各 


[| Wet Only 
预 设 : User settings: 


| 载 入 | | 载 入 | | 保存 | | Rename | 





| 预览 W) ] | Dry Preview 取消 (C) 
图 8-25 
在 图 8-25 中 ， 可 以 看 到 一 些 可 调节 的 参数 ， 这 些 参数 前 面 已 经 部 一 
一 介绍 过 了 ， 大 家 可 以 自己 调节 参数 进行 预览 ， 并 且 可 以 点 击 Dry 
Preview 来 预览 干 声 ， 最 后 氮 击 “确定 ?按钮 ， 即 可 将 这 个 混 啊 效果 器 作用 
到 音频 文件 上 。 


接 下 来 讲解 如 何在 这 两 个 平台 上 实现 这 些 效果 器 。 





8.5 效果 器 实现 


第 8.4 市 已 经 介绍 了 各 个 混 首 效果 器 的 作用 ， 本 市 将 讲解 如 何在 
ge 并 最 终 集 成 到 我 们 的 App 中 


8.5.1 _ Android 平台 实现 效果 器 


在 Android 平 侣 上 实现 效果 器 有 很 多 种 方法 ， 如 果 我 们 从 头 开 始 一 
个 一 个 去 书号， 显然 不 是 一 种 合理 的 方案 。 我 们 应 该 寻找 优秀 的 开源 仓 
库 实 现 这 三 种 类 型 的 效果 器 ， 比 如 sox 开 源 库 ， 它 在 音频 处 理 界 是 一 个 
非常 优秀 的 框架 ， 写 称 音频 处 理 界 的 瑞士 军刀 。 


1.sox 编 译 与 命令 行使 用 


sox 是 最 为 苦 名 的 声 首 处 理 开 源 库 ， 已 经 被 广泛 移植 到 Windows、 

Linux、Mac OS X 等 多 个 平台 。sox 项 目 是 由 Lance Norskog 创 立 的 ， 后 被 
众多 开发 者 逐步 完善 ， 现 在 已 经 能 够 支持 很 多 种 声音 文件 格式 和 处 理 声 
音效 果 。 它 默认 文 持 的 输入 /输出 是 WAV 文 件 ， 如 果 想 要 文 持 MP3 等 格 
式 ， 需 要 预先 安装 libmp3lame 库 来 文 持 这 种 格式 的 编码 与 解码 。 本 节 会 
先 下 载 这 个 库 的 源码 ， 并 编译 出 二 进 制 的 命令 行 工 具 ， 然 后 再 使 用 里 面 
的 三 种 效果 器 。sox 的 源码 放 在 Source-Forge 上 ， 主 页 在 如 下 的 链接 

中 : https://sourceforge.net/projects/sox/。 


进入 sox 的 主页 之 后 ， 找 到 Code 目 录 ， 下 载 整 个 源码 目录 ， 再 使 用 
git 将 整个 目录 clone 下 来 。 因 此 先 建 立 一 个 sox 目 录 ， 然 后 进入 这 个 目录 
中 ， 执 行 如 下 命令 : 








git clone https:// git,.code.sf.net/p/sox/code sox-code 


当 上 面 这 一 行 命令 执行 结束 后 ， 进 入 sox-code 目 录 ， 可 以 看 到 仓库 
的 源码 已 经 全 部 被 下 载 下 来 ， 接 下 来 的 工作 束 是 将 源码 编译 成 为 二 进 制 
命令 行 工具 。 先 查看 源码 目录 下 的 INSTALL 文 件 ， 这 个 文件 指明 ， 如 果 
要 编译 的 源 《 即 代 码 仓库 ) 是 使 用 git 下 载 的 源码 ， 则 要 先 执行 如 下 命 


~ 





autoreconf -i 


这 个 命令 执行 完毕 后 ， 会 在 源码 目录 下 生成 configure、install-sh 等 
文件 。 由 于 要 编译 最 基本 的 sox 的 二 进 制 命令 行 工 具 出 来 ， 所 以 应 建立 
一 个 Shell 脚 本 config_pc.sh， 键 入 以 下 代码 : 








#!/bin/bash 

CWD= pwd ~ 

LOCAL=$CWD 

./configure \ 
--prefix="$LOCAL/pc_1lib" \ 
--enable-static \ 
--disable-shared \ 
--disable-openmp \ 
--without-l]ibltdl \ 
--without-coreaudio 





然后 给 config_pc.sh 及 configure 添 加 执行 权限 ， 并 在 源码 目录 下 面 ， 
新 建 pc_lib 目 录 ， 最 终 执行 这 个 Shell 脚 本 文件 : 





./config_pc.sh 











当 shell 脚 本 执行 结束 后 ， 代 表 配 置 结束 ， 接 下 来 就 可 以 执行 安装 命 


令 了 





make && make install 





执行 成 功 后 ， 进 入 pc_lib 目 录 下 ， 可 以 看 到 这 个 目录 里 被 安装 脚本 
后 成 了 bin、1lib、include 等 目录 。 进 入 bin 目 录 ， 可 以 看 到 play、rec、sox 
等 二 进 制 文件 ， 其 中 ，sox 就 是 我 们 要 运行 的 二 进 制 命令 行 工 具 ， 而 play 
则 可 以 在 处 理 的 同时 直接 播放 一 个 音频 文件 ， 类 似 于 FFmpeg 中 的 ftplay 
工具 。 至 于 rec， 则 是 录制 声音 的 工具 。 由 于 我 们 在 config_pc.sh 中 关闭 
了 硬件 设备 的 配置 选项 ， 所 以 play 和 record 工 具 不 能 使 用 ， 只 使 用 sox 来 
处 理 音 频 文 件 ， 输 入 WAV 格 式 的 音频 文件 ， 输 出 WAV 格 式 的 音频 文 
sox 一 进 制 命令 行 工具 对 输入 文件 分 别 完成 前 面 提 到 的 
并 人 入 呈 。 


首先 是 均衡 效果 器 。 前 面 已 介绍 过 均衡 器 的 参数 设置 ， 整 个 参数 可 
分 为 N 组 参数 ， 每 组 参数 代表 对 具体 频率 的 增强 或 者 减弱 ， 每 组 参数 包 
括 频 率 、 频 带宽 度 和 增益 。sox 的 均衡 需 参 数 设置 也 一 样 ， 来 看 下 面 这 


条 命令 : 








Sox song.wav song_eq.wav equalizer 89.5 1.5q 5.8 equalizer 120 2.0q -5 





上 面 这 条 命令 的 前 两 个 参数 分 别 代 表 输 入 文件 和 输出 文件 ， 它 们 后 


面 有 两 个 均衡 器， 第 一 个 均衡 右 的 中 心 频率 为 89.5Hz， 频 带宽 度 为 
1.54， 增 加 5.8dB 的 能 量 ， 第 二 个 均衡 需 的 中 心 频率 为 120Hz， 频 带宽 度 
为 2.0q， 减 少 5dB 的 能 量 。 如 有 果 想 给 声音 多 作用 几 个 均衡 器 ， 在 后 面 依 
次 添加 儿 组 就 可 。 符 执行 完 命 令 之 后 ， 可 以 试听 输出 文件 的 效果 ， 或 者 
使 用 Audacity 软 件 打 开 处 理 前 和 处 理 后 的 音频 文件 ， 使 用 频谱 图 观察 处 
理 前 后 的 频谱 分 布 的 变化 。 


其 次 是 压缩 效果 器 。 前 面 也 介绍 过 压缩 器 的 设置 ， 整 个 参数 包括 | 门 
限 值 、 压 缩 比 、Attack Time、Decay Time 等 ，sox 中 的 压缩 效果 器 使 用 
库 中 的 compand 来 实现 ， 来 看 下 面 这 条 命令 : 





Sox song.wav Song_compressor ,wav compand 0.3,1 
-100, -140, -85, -100, -70, -60, -55, -50, -40, -40, -25, -25,0, -20 0 -100dB 0. 





以 上 这 条 命令 的 前 两 个 参数 分 别 代 表 输 入 文件 和 输出 文件 ; 
compand 代 表 效 果 器 的 名 称 ， 在 sox 中 使 用 compand 效 果 器 来 实现 压缩 - 扩 
展 器 (Compressor-Expander) 。 后 面 的 参数 以 空格 分 开 ， 首 先是 0.3 和 
1， 分 别 代 表 Attack Time 和 Decay Time; 接 下 来 的 一 组 参数 代表 压缩 器 
的 转换 函数 表 ， 每 个 数值 的 单位 都 是 dB。 继 续 来 看 0、-100、0.1 这 三 个 
参数 ， 第 一 个 0 代表 增益 ， 即 压缩 完毕 后 可 以 将 整体 增益 作用 到 输出 
上 ， 不 再 给 任何 增益 了 ; 第 二 个 -100 代 表 初 始 音 量 ， 可 以 设置 成 
为 -1004B， 代 表 初 始 音量 从 一 个 几乎 为 静音 的 音量 开始 ;， 第 三 个 0.1 代 
表 延 迟 量 。 在 实际 的 音 矣 处 理 场 景 中 ， 压 缩 右 对 于 声音 的 忽然 升 高 有 很 
好 的 抑制 作用 。 


现在 来 看 由 压 纵 器 转换 函数 表 绘 制 出 的 压缩 曲线 ， 如 图 8-26 所 示 。 





一 压缩 转换 曲线 一 一 下 常 输出 
图 8-26 


在 图 8-26( 见 彩 插 ， 中 ， 红 色 直 线 为 一 条 斜率 为 1 的 直线 ， 实 际 上 

是 不 作 任何 处 理 的 曲线 ， 赣 色 曲线 就 是 我 们 的 压缩 曲线 。 赣 色 曲 线 分 为 
四 部 分 ， 从 中 可 以 看 到 ， 在 能 量 比较 低 的 部 分 〈-100 一 -80dB) 可 将 输 

出 能 量 降低 ， 相 当 于 将 底部 噪声 部 分 压低 ;中间 能 量 部 分 〈-75 

一 -45dB) 有 所 提升 ， 一 部 分 〈-40~-25dB) 保持 不 变 ， 即 赣 色 曲 线 和 

红色 曲线 重合 ， 对 比较 高 能 量 部 分 (-20~0dB)〉 进行 压缩 处 理 ， 形 成 整 
个 曲线 。 当 然 ， 输 入 /输出 点 数 越 多 ， 曲 线 就 会 越 平 滑 ， 得 到 的 声音 效 

果 就 会 越 好 。 大 家 可 以 试听 经 过 压缩 器 处 理 完 后 的 声音 ， 是 不 是 觉得 整 
个 音量 的 动态 变化 范围 被 压缩 了 呢 ? 这 就 是 压缩 效果 器 的 作用 。 


最 后 是 混 啊 效果 器 。 混 啊 器 的 参数 前 面 已 详细 介绍 过 。 下 面 来 看 如 
何 使 用 sox 给 声音 增加 混 啊 ， 命 令 如 下 : 


























Sox song.wav Song_reverb .wav reverb 50 50 90 50 30 





其 中 ， 第 一 个 参数 是 reverbrance， 即 余 响 的 大 小 ， 可 以 设置 为 50 试 
听 效 果 ;， 第 二 个 参数 是 HF-damping， 即 高 频 阻 尼 ， 可 以 设置 为 50; 第 三 
个 参数 是 room-scale， 即 房间 大 小 ， 可 以 设置 为 90， 代 表 一 个 比较 大 的 
房间 ; 第 四 个 参数 代表 立体 声 深度 ， 设 置 越 大 ， 代 表 立 体 声效 果 越 明 


显 ， 这 里 设置 为 50; 最 后 一 个 参数 是 pre-delay， 即 早 反 射 声 的 时 间 ， 单 
位 为 坚 秒 ， 这 里 设置 为 30ms。 执 行 完 以 上 命令 后 ， 读 者 再 试听 处 理 完 的 
声音 ， 会 发 现 有 比较 明显 的 混 啊 效果 了 。 


这 里 介绍 了 如 何 编译 Sox， 以 及 使 用 Sox 二 进 制 命令 行 工具 ， 下 面 将 
其 交叉 编译 到 Android 平 台 ， 并 且 介 绍 其 SDK 的 使 用 。 


2.Sox 的 交叉 编译 


这 里 会 介绍 将 sox 交 叉 编 译 到 Android 平 台 ， 并 且 介 绍 如 何在 Android 
平台 使 用 sox 的 SDK 来 使 库 中 的 效果 露 工作。 首先 ， 将 sox 这 个 开源 库 交 
又 编译 出 一 个 静态 库 以 及 头 文件 ， 以 方便 我 们 在 Android 的 NDK 开 发 的 
编译 阶段 和 链接 阶段 分 别 引 用 。 新 建立 config_armv7a.sh， 键 入 以 下 代 
码 ， 以 编译 出 静态 库 与 头 文件 : 














#!/bin/bash 
NDK_BASE=/Users/apple/soft/android/android-ndk-r9b 
NDK_SYSROOT=$NDK_BASE/platforms/android-8/arch-arm 
NDK_TOOLCHAIN_BASE=$NDK_BASE/toolchains/arm-linux-androideabi- 
4.6/prebuilt/darw 
in-x86_64 

CC="$NDK_TOOLCHAIN_ BASE/bin/arm-linux-androideabi-gcc 
sysroot=$NDK_SYSROOT" 
LD=$NDK_TOOLCHAIN_BASE/bin/arm-linux-androideabi-1d 
CWD= pwd ~ 
PROJECT_ROOT=$CWD 
./configure \ 

--prefix="$PROJECT_ROOT/lib/armv7" \ 

CFLAGS="-02" \ 

CC="$CC" \ 

LD="$LD" \ 

--target=armv7a \ 

--host=arm-linux-androideabi \ 

--with-sysroot="$NDK_SYSROOT" \ 

--enable-static \ 

--disable-shared \ 

--disable-openmp \ 

- -without-]ibltdl 








然后 执行 config_armv7a.sh (如果 没 有 执行 权限 ， 则 要 加 上 执行 权 
限 ) ， 可 以 看 到 在 当前 目录 的 jib 目 录 下 有 一 个 armv7 目 录 ，armv7 目 录 中 
会 有 我 们 非常 熟悉 的 include、]ib 目 录 ， 里 面 束 有 我 们 需要 的 头 文 件 sox.h 
与 静态 库 文 件 libsox.a， 至 此 交叉 编译 工作 完成 。 接 下 来 看 看 如 何 使 用 
sox 库 中 提供 的 API 在 代码 层面 使 用 各 种 效果 器 。 


3.SDK 介 绍 











要 使 用 sox 库 中 提供 的 API， 就 要 从 它 的 官方 实例 中 开始 ， 从 sox 的 
根 目 录 进 入 src 目 录 ， 在 src 目 录 下 有 几 个 以 example 开 头 的 C 文 件 ， 这 束 
是 提供 给 开发 者 参考 的 Demo。 打 开 example0.c 这 个 文件 可 以 看 到 ， 该 文 
件 的 开头 引用 了 sox.h 头 文件 。 然 后 看 一 下 main 函 数 ， 因 为 使 用 API 的 流 
程 都 在 main 函 数 中 。 在 使 用 sox 库 之 前 ， 必 须 初 始 化 整个 库 的 一 些 全 局 
参数 ， 需 要 调用 如 下 代码 : 


sox_init(); 


上 述 函 数 返 回 一 个 整数 ， 如 果 返 回 的 是 SOX_SUCCESS 这 个 枚 举 
值 ， 则 代表 初始 化 成 功 了 。 在 整个 应 用 程序 中 ， 如 果 没 有 调用 sox_quiit 
方法 ， 那 么 不 可 以 再 一 次 调用 sox_init， 否 则 会 造成 Crash。 接 下 来 初始 
化 输入 文件 ， 代 码 如 下 : 





sox_format_t* in; 
const char* input_path = "/Users/apple/input .wav"; 
in = sox_open read(input_path, NULL, NULL, NULL); 


初始 化 好 了 输入 文件 之 后 ， 再 来 初始 化 输出 文件 ， 代 码 如 下 : 


sox_format_t* out 
const char* output_path = "/Users/apple/output .wav"; 
out = sox_open write(output_path, &in->signal, NULL, NULL, NULL, NULL); 





初始 化 好 了 输出 文件 后 ， 融 可 以 看 到 输入 文件 和 输出 文件 都 是 
WAV 格 式 的 ， 因 为 我 们 并 没有 集成 其 他 编码 格式 的 工具 ， 所 以 是 直接 
用 的 WAV 格 式 。sox 中 提供 的 效果 器 种 类 较 多 ， 为 了 方便 开发 者 使 用 ， 
sox 使 用 类 似 贡 任 链 设计 模式 的 方式 设计 整个 系统 ， 所 以 使 用 时 需要 先 
构造 一 个 效果 器 链 ， 然 后 将 要 使 用 的 效果 器 一 个 一 个 地 加 a 到 这 个 效果 链 
中 ， 最 终 传 入 输入 文件 中 的 数据 以 及 接受 这 个 效果 需 链 处 理 完 的 数据 ， 
就 可 以 完成 音效 的 处 理工 作 。 移 来 构造 这 个 效果 需 链 ， 代 码 如下: 


SOX_effects_chain_t* chain,; 
chain = sox_create effects_ chain(&in->encoding, &out->encoding); 


上 述 代 码 构 造 出 了 一 个 效果 器 链 ， 重 点 来 看 里 面 的 两 个 参数 ， 这 两 
个 参数 实际 上 束 是 告诉 效果 器 链 输入 首 频 的 数据 格式 和 输出 首 频 的 数据 





格式 ， 比 如 声 道 、 采 样 率 、 表 示 格 式 等 。 我 们 可 以 从 最 开始 初始 化 的 输 
入 文件 格式 和 输出 文件 格式 中 拿 到 数据 格式 ，sox 会 存储 到 encoding 属 性 
中 。 接 下 来 要 癌 效果 器 链 中 增加 效果 器 了 ， 但 是 在 增加 实际 的 效果 占 之 
前 ， 我 们 要 先 考 虑 一 个 问题 ， 束 是 如 何 将 输入 首 频 数据 提供 给 效果 妖 

链 ， 以 及 如 何 将 效果 器 链 处 理 完 的 音频 数据 写 入 文件 中 。 对 于 这 个 问 

题 ，sox 已 经 帮 我 们 提供 了 对 应 的 API， 为 了 方便 开发 者 ，sox 的 作者 把 
输入 和 输出 分 别 构造 成 了 一 个 特殊 的 效果 器 ， 待 我 们 创建 出 提供 输入 数 
据 的 效果 右 ， 就 添加 到 效果 右 链 的 第 一 个 位 置 ， 然 后 创建 出 输出 数据 的 
效果 右 ， 添 加 到 效果 器 链 的 最 后 一 个 位 置 上 。 


先 来 看 一 下 为 效果 器 链 提供 输入 数据 的 特殊 效果 器 的 构造 ， 代 码 如 
下 : 








SOX_effect_t* inputEffect ， 
inputEffect = sox_create effect(sox find effect("input")); 





上 述 代码 构造 出 了 一 个 用 于 给 效果 器 链 输入 数据 的 特殊 效果 器 ， 但 
是 这 个 特殊 效果 强 的 数据 从 哪里 来 呢 ? 答 案 就 是 上 面 初始 化 的 输入 文 
件 ， 因 此 我 们 要 将 输入 文件 配置 到 这 个 效果 器 中 ， 人 代码 如 下 : 


char* args[10]; 
args[0] = (char*) in,; 
sox_effect_options(inputEffect, 1, args); 


可 以 看 到 上 述 代码 将 之 前 构造 的 输入 文件 格式 的 结构 体 强 制 转化 为 
了 char 指 针 类 型 的 参数 ， 并 配置 给 了 效果 器 ， 而 在 sox 中 都 是 以 char 指 针 
类 型 的 参数 来 配置 效果 器 的 。 配 置 好 了 后 ， 要 将 这 个 效果 器 增加 到 效果 
需 链 中 ， 并 且 将 这 个 效果 需 释 放 反 ， 人 代码 如 下 : 








sox_add effect(chain, inputEffect, &in->signal, &in->signal); 
free(inputEffect ) ， 


全 此 给 效果 器 链 提供 输入 数据 的 特殊 效果 需 就 已 经 创建 成 功 ， 并 且 
进行 了 配置 ， 最 终 成 功 添加 到 了 效果 右 链 中 ， 这 个 过 程 也 是 任何 一 个 效 
果 右 从 创建 到 配置 到 添加 到 销毁 的 整个 过 程 。 


接 下 来 是 我 们 想 要 使 用 的 最 核心 的 效果 器 部 分 ， 这 里 以 一 个 非常 简 





单 的 增加 音量 的 效果 需 为 例 进 行 讲 解 ， 添 加 如 下 代码 : 





SOX_effect_t* VolLEffect ， 

volEffect = sox_create effect(sox_ find effect("vol")); 
args[0] = "3dB"; 

sox_effect_options(volEffect, 1, args); 

sox_add_ effect(chain, volEffect, &in->signal, &in->signal); 
free(volEffect),; 





从 以 上 代码 可 以 看 到 ， 音 量 效果 圳 给 整个 音频 文件 增加 了 3 个 dB 的 
音量 。 虽 然 整个 过 程 比较 简单 ， 但 是 也 有 的 读者 可 能 会 问 ， 寿 想 使 用 一 
效果 器 ， 从 哪里 可 以 找到 这 个 效果 器 的 名 称 呢 ? 其 实 所 有 效果 器 的 名 
称 都 被 定义 在 effects.h 这 个 头 文件 中 ， 读 者 可 以 自己 去 查阅 。 


接 下 来 配置 另外 一 个 比较 特殊 的 效果 器 ， 即 接受 效果 需 链 处 理 完 的 
数据 ， 并 将 数据 输出 到 文件 中 的 效果 器 ， 代 码 如 下 : 





SOX_effect_t* OutputEffect 

OutputEffect = sox_create effect(sox_find_ effect("output")); 
args0 = (char*)out,; 

sox_effect_options(outputEffect, 1, ags); 
sox_add_effect(chain, outputEffect, &in->signal, &in->signal); 
free(outputEffect ) ， 





上 述 代 码 也 比较 简单 ， 主 要 是 把 前 面 所 构造 的 输出 文件 配置 给 
output 这 个 特殊 效果 器 ， 最 终 再 将 效果 咒语 加 到 整个 效果 器 链 中 。 至 此 
这 个 效果 露 链 就 已 经 构造 好 了 ， 人 整个 结构 如 图 8-27 所 示 。 
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图 8-27 


构造 好 了 这 个 效果 器 链 后 ， 如 何 让 整个 效果 器 链 运 行 起 来 呢 ? 其 实 
也 很 简单 ， 只 需要 执行 以 下 代码 : 








sox_flow_effects(chain, NULL, NULL); 





这 个 方法 执行 结束 ， 整 个 处 理 流程 也 就 结束 了 ， 经 过 核心 效果 器 
一 一 声 首 变化 效果 占 处 理 之 后 的 首 频 数据 束 被 全 部 写 入 output.wav 文 件 
中 了 。 当 然 ， 完 成 之 后 要 销毁 挥 这 个 效果 器 链 : 





sox_delete effects chain(chain); 





然后 关闭 输入 文件 和 输出 文件 ， 代 码 如 下 : 





sox_close(out); 
sox_close(in); 





最 后 释放 sox 库 里 的 全 局 参数 ， 代 人 码 如 下 : 





sox_quit(); 





至 此 ， 可 以 使 用 sox 提 供 的 SDK 来 处 理 首 频 文件 了 。 
4. 均 衡器 的 实现 
下 面 介绍 如 何 使 用 sox 的 均衡 器 。 前 面 已 经 介绍 过 在 命令 行 工 具 中 


如 何 使 用 均衡 效果 器 ， 有 了 前 面 的 基础 ， 我 们 就 可 以 知道 如 何 编 写 出 本 
节 的 代码 ， 如 下 : 





sox_effect_t* e; 
e = sox_create effect((sox_ find effect("equalizer"))); 





首先 根 据 均 衡器 的 名 字 创 建 出 效果 器 ， 然 后 使 用 中 心 频率 、 频 带宽 
度 ， 以 及 增 若 来 配置 这 个 效果 露 ， 代 码 如 下 : 





char* frequency = "300" 
char* bandwidth = "1.25q"; 


char* gain = "3dB"; 
char* args[] = {frequency, bandwidth, gain},; 
int ret = sox_effect options(e, 3, args); 





由 于 均衡 器 的 参数 有 3 个 ， 所 以 这 里 配置 函数 的 第 二 个 参数 传递 3， 
待 执行 完 这 个 配置 函数 后 ， 若 返回 的 ret 是 SOX_SUCCESS， 则 代表 配置 
成 功 。 最 后 将 这 个 效果 器 添加 到 效果 器 链 中 ， 代 人 码 如 下 : 








sox_add effect(chain, e, &in->signal, &in->signal); 
free(e); 





至 此 ， 己 将 一 个 均衡 占 加 入 效果 器 链 中 了 ， 但 是 一 般 情 况 下 会 有 多 
个 均衡 器 同时 作用 到 音频 上 ， 如 果 有 多 个 均衡 器 ， 则 创建 多 个 均衡 右 ， 
并 依次 添加 到 效果 器 链 中 。 


一 般 情 况 下 ， 我 们 在 处 理 音频 的 时 候 ， 还 会 加 上 高 通 和 低 通 ， 类 似 
于 均衡 器 ， 也 属于 涯 波 器 。 高 通 就 是 高 频率 的 声音 可 以 通过 这 个 滤波 
器 ， 低 频率 的 声音 就 人 ”过 滤 揉 ， 有 另外 一 种 叫 法 就 是 低 切 。 低 通 就 是 高 
通 的 逆 过 程 ， 也 称 为 高 切 。 这 里 只 展示 高 通 滤波 句 ， 代 码 如 下 : 








SOX_effect_t* e,; 

e = sox_create effect(sox_ find effect("highpass")); 
char* frequency = "80"; 

char* width = "0.5q"， 

char* args[] = {frequency, width}; 
sox_effect_options(e, 2, args); 

sox_add effect(chain, e, &in->signal, &in->signal); 





相 比 于 普通 的 均衡 器 ， 高 通 滤波 器 不 需要 增益 这 个 参数 ， 所 以 只 震 
要 这 两 个 参数 就 够 了 ， 低 通 效 果 器 的 名 字 为 lowpass。 

在 sox 库 中 ， 均 衡器 的 具体 实现 是 biquad (源码 文件 是 biquads.c) ， 
而 biquad 也 是 大 部 分 均衡 器 以 及 高 通 、 低 通 等 的 实现 方式 。biquad 又 称 
为 双 二 阶 滤波 器 ， 双 二 阶 涯 波 器 是 双 二 阶 〈 两 个 极点 和 两 个 零点 ) 的 
IIR 滤 波 器 ， 它 可 以 不 用 将 声音 转换 到 频 域 而 给 声音 做 频 域 上 的 某 些 处 
理 。 至 此 均衡 器 的 所 有 内 容 就 讲解 完毕 ， 接 下 来 讲解 压缩 效果 器 。 
5. 压 缩 右 的 实现 


这 里 介绍 如 何 使 用 sox 中 的 压缩 器 。 首 先 创 建 压 缩 效 果 器 ， 人 代码 如 





SOX_effect_t* e,; 
e = SoOX_create_effect(Sox_find_effect("compand") ) ; 





其 次 给 这 个 压缩 器 配置 参数 〈 作 用 时 间 与 释放 时 间 ) ， 代 码 如 下 : 





char* attackRelease = "0.3,1.0"; 





然后 在 sox 中 采用 更 灵活 的 压缩 曲线 来 控制 压缩 比 ， 采 用 构造 一 个 
函数 转换 表 的 方式 来 实现 ， 代 码 如 下 : 





char* functionTransTable = “6:-90,-90,-70,-55,-31,-31,-21,-21,0,-20”; 





最 后 是 整体 增益 、 初 始 化 音量 以 及 延迟 时 间 ， 代 码 如 下 : 





char* gain = "0"; 
char* initialVolume = "-90"， 
char* delay = "0.1"; 





构造 完 这 些 参 数 之 后 ， 利 用 这 些 参数 配置 这 个 压缩 效果 器 ， 代 码 如 
下 : 





char* args[] = {attackRelease, functionTransTable, gain, initialVolume, dels 
sox_effect_options(e, 5, args); 





最 终 将 这 个 效果 器 加 入 效果 器 链 中 ， 并 销毁 这 个 效果 器 ， 人 代码 如 
下 : 





sox_add effect(chain, e, &in->signal, &in->signal); 
free(e); 





大 家 尝试 运行 ， 最 终 拿 出 处 理 完毕 的 音频 文件 进行 播放 ; 感受 在 代 
码 层 使 用 SDK 调 用 压缩 效果 器 处 理 的 音频 是 否 和 命令 行 工 具 处 理 出 来 的 
音频 一 致 。 


6. 混 啊 右 的 实现 
下 面 介 绍 如 何 使 用 sox 的 混 响 器 。 先 创建 混 响 效果 器 ， 代 码 如 下 : 





SOX_effect_t* e,; 
e = Sox_ create effect(sox find effect("reverb")); 








其 次 给 这 个 泥 啊 效果 器 配置 参数 ， 比 如 是 否 纯 湿 声 ， 代 码 如 下 : 





char* wetOnly = "-w",; 





然后 是 混 啊 大 小 、 高 频 阻尼 以 及 房间 大 小 ， 代 码 如 下 : 





char* reverbrance = "50"; 
char* hfDamping = "50"; 
char* roomScale = "85"，; 








最 后 是 立体 声 深度 、 早 反射 声 时 间 以 及 湿 声 增益 ， 代 码 如 下 : 





char* stereoDepth = "100",; 
char* preDelay = "30"，; 
char* wetGain = "0"; 





将 这 些 参数 一 块 配置 到 效果 器 中 ， 代 码 如 下 : 





char* args[] = {wetonly， reverrance, hfDamping, roomScale, stereoDepth, 
preDelay, 

wetGain}; 
sox_effect_options(e, 7, args); 





最 终 将 这 个 效果 器 加 入 效果 器 链 中 ， 并 运行 程序 。 大 家 可 以 试听 人 处 
理 完 后 的 音频 效果 ， 其 实在 使 用 混 啊 效果 器 的 时 候 ， 一 般 在 混 啊 效果 器 
之 前 增加 一 个 echo 效 果 器 往往 可 以 获得 比较 好 的 效果 ， 由 于 篇 幅 的 关 
系 ， 这 里 就 不 再 缆 述 了 。 


在 Sox 库 中 ，Reverb 使 用 经 典 的 施 罗 德 (Schroeder) 混 啊 模型 来 实 
现 ， 施 罗 德 〈Schroeder) 混 啊 模型 使 用 4 个 并 联 的 梳 状 滤波 堪 和 2 个 串联 
的 全 通 滤 波 占 来 建立 混 啊 模型 。 梳 状 滤 波 器 提供 混 啊 效果 中 延迟 较 长 的 
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图 8-28 


现在 我 们 来 分 析 施 罗 德 混 啊 模型 的 优 缺 点 。 优 点 是 ， 通 过 设置 6 个 
滤波 器 的 参数 ， 可 以 模仿 出 前 期 反射 和 后 期 混 啊 效果 ， 全 通 滤波 器 可 以 
在 一 定 程度 上 减轻 梳 状 滤波 器 引入 的 泻 染 成 分 ;缺点 是 ， 产 生 的 混 啊 效 
果 缺 少 早期 反射 声 ， 这 样 会 造成 声音 缺乏 空间 立体 感 而 且 不 清晰 。 对 于 
缺点 ， 我 们 可 以 进行 改造 和 优化 ， 其 中 最 为 第 用 的 一 种 手段 束 是 使 用 干 
声 的 echo 来 填充 早期 的 反射 声 ， 改 造 后 的 结构 如 图 8-29 所 示 。 
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图 8-29 


如 图 8-29 所 示 ， 在 混 啊 效果 器 中 一 定 要 将 isWetOnly 属 性 设置 为 
True， 即 只 要 湿 声 ， 再 使 用 Echo 来 填充 早起 反射 声 部 分 ， 将 湿 声 与 Echo 
加 起 来 之 后 作为 混 啊 的 湿 声 部 分 ， 然 后 再 与 干 声 以 一 定 的 干 湿 比 混合 起 
来 作为 最 终 的 输出 结果 。 


至 此 Android 平 台 上 的 效果 器 实现 已 经 介绍 完毕 。 特 别 说 明 ， 这 些 
效果 器 都 是 采用 C 语 言 编写 的 ， 因 此 理论 上 可 通过 交叉 编译 运行 在 iOS 
平台 上 。 但 是 ，iOS 平 台 的 多 媒体 库 非常 强大 ， 是 否 有 更 高 效 的 处 理 方 
式 呢 ? 下 面 就 介绍 在 iDS 平 台 上 如 何 使 用 更 高 效 的 方式 来 处 理 音频 。 





8.5.2 iDOSs 平 台 实 现 效果 器 


相 较 于 Android 平 台 的 开发 者 来 说 ，iOS 平 台 的 开发 者 应 该 感到 非常 
幸运 ， 因 为 苹果 公司 为 开发 者 提供 了 足够 强大 的 多 媒体 方面 的 API， 所 
以 先 来 看 看 iOS 平 台 本 身 的 音频 处 理 API 能 否 满足 我 们 实现 效果 器 的 要 
求 。 通 过 查阅 开发 者 文档 ， 可 以 看 出 AudioUnit 可 以 用 来 处 理 音频 ， 这 
个 结论 在 第 4 章 中 有 提 到 过 。 此 外 ， 第 4 章 中 还 提 到 过 AudioUnit 包 含 多 
种 类 型 ， 其 中 有 一 种 类 型 是 EffectType 的 AudioUnit。 


1. 均 衡器 的 实现 


下 面 使 用 AudioUnit 来 实现 均衡 器 。 在 AudioUnit 中 ， 均 衡器 有 两 种 
实现 类 型 . 第 一 种 类 型 称 为 ParametricEQ 的 实现 ， 这 种 类 型 均衡 器 的 设 
置 类 似 于 sox 中 的 均衡 效果 堪 ， 如 果 想 要 给 声音 多 个 均衡 器 ， 则 要 增加 
多 个 此 类 型 的 效果 器 ， 第 二 种 类 型 称 为 NBandEQ， 从 名 字 来 看 ， 这 种 均 
衡器 可 以 同时 对 多 个 频带 进行 设置 ， 不 用 为 了 对 多 频带 进行 调整 而 添加 
多 个 效果 器 。 实 际 生 产 过 程 中 ， 笔 者 常用 的 是 NBandEQ， 读 者 应 该 根据 
自己 的 场景 来 选择 具体 的 均衡 效果 器 。 这 里 分 别 介绍 这 两 种 类 型 的 
AudioUnit 的 使 用 ， 且 还 是 按照 之 前 AUGraph 的 方式 来 使 用 。 下 面 使 用 
这 两 种 方式 实现 同一 个 需求 ， 给 3 个 中 心 频率 增加 或 减少 能 量 。 


(1) ParametricEQ 


先 来 看 它 的 描述 ， 类 型 是 Effect， 子 类 型 是 ParametricEQ， 广 商都 是 
Apple 人 公司， 代码 如 下 : 














CAComponentDescription equalizer_desc(kAudioUnitType_Effect, 
kAudioUnitSubType_ParametricEQ, 
kAudioUnitManufacturer_Apple) 





然后 按照 这 个 描述 将 均衡 器 AUNode 加 入 AUGraph 中 ， 并 且 根 据 这 
个 AUNode 取 出 这 个 效果 器 对 应 的 AudioUnit， 代 码 如 下 : 





for(int i = 0; i < 3; i++) { 
AUNode equalizerNode; 
AUGraphAddNode(playGraph, &equalizer_ desc, &equalizerNode); 
equalizerNodes[i] = equalizerNode; 


} 
AUGraphopen(playGraph ) 


for (int i = 0; i < EQUALIZER COUNT; i++) { 
AUGraphNodeInfo(playGraph, equalizerNodes[i], NULL, 
&equalizerUnits[i]); 








根据 前 面 章节 中 讲述 的 AudioUnit 配 置 过 程 来 给 这 个 效果 器 配置 参 
数 ， 代 人 码 如 下 : 





for (int i = 0; i < 3; i++) { 

int frequency = [[frequencys objectAtIndex:i] integerValuel]; 

float band = [[bands objectAtIindex:i] floatValuel]; 

int gain = [[gains objectAtIndex:i] integerValuel]; 

AudioUnitSetParameter(equalizerUnits[i], 
kParametricEQParam CenterFreq, 
kAudioUnitScope_Global, 0, frequency, 0); 

AudioUnitSetParameter(equalizerUnits[i], 
kParametricEQParam QQ, 
kAudioUnitScope_Global, 0, band, 0); 

AudioUnitSetParameter(equalizerUnits[i], 
kParametricEQParam_ Gain, 
kAudioUnitScope_Global, 0, gain, 0); 





注意 ， 配 置 频带 的 参数 不 是 Q 值 也 不 是 以 O (Octave 八 度 ) 为 单位 
的 ， 而 是 以 Hz 为 单位 的 ， 中 心 频率 的 设置 以 及 增益 的 设置 都 是 和 之 前 一 
致 的 。 配 置 好 参数 之 后 ， 就 将 这 个 效果 器 连接 到 数据 源 (RemoteIO 或 
Audio File Player) ， 然 后 试听 效果 或 者 将 数据 保存 下 来 。 


(2) NBandEQ 
先 来 看 它 的 描述 ， 类 型 为 Effect 类 型 ， 子 类 型 为 NBandEQ， 人 代码 如 





CAComponentDescription n_band equalizer_desc( 
kAudioUnitType_Effect, kAudioUnitSubType_NBandEQ, 
kAudioUnitManufacturer_Apple); 





从 名 字 上 可 以 看 出 ，NBandEQ 其 实 可 以 满足 为 多 个 频带 增强 或 者 减 
弱 能 量 的 需求 ， 这 里 不 再 展示 构造 AUNode 以 及 从 具体 的 AUNode 中 获 
取 AudioUnit 的 代码 ， 而 是 直接 把 设置 参数 的 代码 展示 如 下 : 





for (int i = 0; i < 3; i++) { 
float frequency = [[frequencys objectAtIndex:i] floatValuel]; 
float band = [[bands objectAtIindex:i] floatValuel]; 


float gain = [[gains objectAtIndex:I] floatValue]; 
AudioUnitSetParameter(nBandEqUnit, kAUNBandEQParam FilterType + i, 
kAudioUnitScope_Global, 0, kAUNBandEQFilterType_Parametric,0); 
AudioUnitSetParameter(nBandEqUnit, kAUNBandEQParam BypassBand + i, 
kAudioUnitScope_Global, 90, 1, 0); 
AudioUnitSetParameter(nBandEqUnit, kAUNBandEQParam Frequency + i, 
kAudioUnitScope_ Global, 0, frequency,o); 
AudioUnitSetParameter(nBandEqUnit, kAUNBandEQParam Gain + 1i, 
kAudioUnitScope_Global, 0, gain, 0); 
AudioUnitSetParameter(nBandEqUnit, kAUNBandEQParam Bandwidth + i, 
kAudioUnitScope_Global, 0, band, 0); 








乍 一 看 可 能 会 觉得 这 里 的 参数 怎么 多 。 下 面 逐 一 解释 各 个 参数 的 售 
义 。NBandEQ 表 示 想 给 哪个 band 设 置 就 直接 在 某 个 参数 后 面 加 几 即 可 ， 
第 一 个 参数 设置 是 选择 EQ 类 型 ， 其 中 EQ 类 型 包括 高 通 、 低 通 、 带 通 
等 ， 这 里 选择 Parametric 类 型 的 普通 EQ; 第 二 项 参数 Bypass 的 设置 束 是 
是 否 直接 通过 而 不 做 任何 处 理 ，0 代 表 不 对 这 个 频带 进行 处 理 ，1 代 表 对 
这 个 频带 进行 处 理 。 剩 余 的 三 个 参数 前 面 已 介绍 过 ， 但 是 要 注意 的 是 ， 
BandWidth 设 置 的 单位 是 O (Octave， 八 度 ) ， 因 此 ， 如 果 频 宽 单 位 是 Q 
值 ， 则 要 进行 转换 。 


下 面 将 这 个 效果 器 以 AUNode 的 形式 连接 到 数据 源 〈RemoteIO 或 者 
Audio File Player) 后 ， 然 后 试听 效果 以 及 处 理 生 成 后 的 音频 文件 。 


2. 压 缩 右 的 实现 
下 面 使 用 AudioUnit 来 实现 压缩 器 。 相 比 均 衡 磺 ， 压 缩 右 的 设置 比 


较 简 单 。 先 来 看 压缩 器 的 描述 ， 类 型 是 Effect 类 型 ， 子 类 型 是 
DynamicProcessor， 代 码 如 下 : 











CAComponentDescription compressor_desc(kAudioUnitType_Effect, 
kAudioUnitSubType_DynamicsProcessor, 
kAudioUnitManufacturer_Apple); 





其 次 利用 这 个 描述 构造 AUNode， 再 找 出 对 应 的 AudioUnit， 代 码 如 
下 : 





AUNode compressorNode ; 

AudioUnit compressorUnit 

AUGraphAddNode(mGraph, &compressor_desc, &compressorNode); 
AUGraphNodeInfo(mGraph, compressorNode, NULL, &compressorUnit); 





然后 给 这 个 AudioUnit 设 置 参 数 ， 代 码 如 下 : 





AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam_ Threshold, 
kAudioUnitScope_Global, 0, -20, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam HeadRoom, 
kAudioUnitScope_Global, ©0, 12.937, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam ExpansionRatic 
kAudioUnitScope_Global, 0, 1.3, 0); 
AudioUnitSetParameter(compressorUnit, 
kDynamicsProcessorParam ExpansionThreshold, 
kAudioUnitScope_Global, 0, -25, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam AttackTime, 
kAudioUnitScope_Global, 90, 0.001, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam ReleaseTime, 
kAudioUnitScope_Global, 0, 0.5, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam MasterGain, 
kAudioUnitScope_Global, 0, 1.83, 0); 





这 里 的 参数 比较 简单 ， 和 之 前 介绍 的 压缩 器 参 数 是 一 致 的， 主要 有 
门限 值 、 压 缩 比 、 作 用 时 间 和 释放 时 间 等 。 


最 后 将 这 个 效果 器 连接 到 数据 源 AudioUnit 的 后 面 ， 再 试听 效果 ， 
如 果 满 意 ， 则 可 以 试 着 生成 一 个 目标 音频 文件 。 


3. 混 啊 器 的 实现 


下 面 使 用 AudioUnit 来 实现 混 响 器 ， 代 码 如 下 : 





CAComponentDescription reverb_ desc(kAudioUnitType_Effect, 
kAudioUnitSubType_Reverb2, kAudioUnitManufacturer_Apple); 





这 里 利用 这 个 描述 (compressor-desc) 构造 出 AUNode， 并 且 取 出 
对 应 的 AudioUnit， 代 码 如 下 : 





AUNode reverbNode; 

AudioUnit reverbUnit; 

AUGraphAddNode(mGraph, &reverb_ desc, &reverbNode); 
AUGraphNodeInfo(mGraph, reverbNode, NULL, &reverbUnit); 





然后 再 设置 参数 ， 代 码 如 下 : 





AudioUnitSetParameter(reverbUnit, kReverb2Param DrywetMix, 
kAudioUnitScope_Global, 9, 15.65, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param Gain, 


kAudioUnitScope_Global, 0, 9.3, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param MinDelayTime, 
kAudioUnitScope_Global, 0, 0.02, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param MaxDelayTime, 
kAudioUnitScope_Global, 0, 0.25, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param DecayTimeAtOHz, 
kAudioUnitScope_Global, 0, 1.945, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param DecayTimeAtNyquist, 
kAudioUnitScope_Global, 90, 10, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param RandomizeReflections, 
kAudioUnitScope_Global, 0, 1, 0); 





这 里 的 参数 设置 和 前 面 大 部 分 的 混 啊 设置 差不多 ， 大 家 可 以 目 己 调 
试 各 项 参数 来 试听 效果 。 设 置 好 参数 后 ， 可 以 将 这 个 混 啊 器 连接 到 数据 
源 之 后 并 试听 效 末 ， 如 有 果 满 意 ， 则 可 以 试 着 生成 一 个 目标 音频 文件 。 





8.6 ”本 章 小 结 


本 章 从 声音 的 时 域 、 频 域 表 示 开 始 讲解 ， 并 且 讲 解 了 FFT 的 物理 意 
义 ， 擎 握 这 些 基 本 的 表示 对 于 数字 音频 的 理解 是 很 有 帮助 的 ， 然 后 讲解 
了 一 些 基 本 的 乐理 知识 ， 掌 握 这 些 乐理 知识 之 后 ， 相 信 读 者 对 于 声音 的 
理解 可 以 达到 一 个 更 高 层次 的 理解 ， 最 后 介绍 了 混 音 效果 器 ， 在 8.4 
和 8.5 节 从 各 个 效果 器 的 原理 以 及 实现 进行 了 分 析 ， 并 且 对 各 自 平 台 的 
人 
点 用 。 

















第 9 章 “” 视 频 效 果 吉 的 介绍 与 实践 


我 们 曾 在 第 7 章 最 后 抛 出 了 两 个 问题 : 第 一 个 问题 是 声音 方面 的 ， 
即 声 音 听 起 来 有 点 二， 能 人 否 修饰 得 更 好 听 ;， 第 二 个 问题 是 视频 方面 的 ， 
即 能 人 否 给 图 像 调 对 比 度 、 提 亮 、 给 皮肤 磨 色 等 操作 。 其 中 第 一 个 问题 已 
在 第 8 章 解决 ， 本 章 将 通过 给 视频 增加 滤 镜 效果 来 解决 第 二 个 问题 。 


可 能 有 读者 会 有 疑问 ， 视 频 的 处 理 和 普通 的 图 像 处 理 有 什么 区 别 

吗 ? 其 本 质 是 没有 差别 的 ， 都 是 针对 像素 进行 处 理 ， 只 是 视频 的 图 像 是 
一 帧 一 帧 的 。 在 进行 视频 处 理 时 ， 有 几 点 需要 注意 : 1) 视频 处 理 要 求 
实时 性 高 ， 因 为 视频 的 帧 率 最 低 应 为 15fps 〈1 秒 钟 15 帧 ) 以 上 ， 所 以 每 
帧 的 处 理 速 度 应 在 66ms 以 下 ， 这 样 才 能 保证 视频 的 实时 处 理 ， 人 否则 会 让 
视频 卡 顿 ， 给 用 户 带 来 不 好 的 体验 。2) 视频 有 时 间 元 余 性 ， 所 以 在 处 
理 茶 些 特殊 场景 时 《如 人 脸 特 征 点 识别 ) ， 可 以 利用 这 一 特性 来 减少 运 
算 量 。 第 1 章 我 们 已 经 介绍 过 视频 以 及 图 像 的 基础 知识 ， 下 面 让 我 们 开 
始 本 章 内 容 的 学 习 吧 ! 

















9.1 图 像 处 理 的 基本 原理 


数字 图 像 处 理 是 指 利 用 计算 机 将 图 像 的 数字 信和 与 进行 处 理 的 过 程 。 
图 像 处 理 最 早出 现 于 20 世 纪 50 年 代 ， 当 时 的 电子 计算 机 已 经 发 展 到 一 定 
水 平 ， 人 们 开始 利用 计算 机 来 处 理 图 形 和 图 像 信 息 。 数 字 图 像 处 理 作为 
一 门 学 科大 约 形成 于 20 世 纪 60 年 代 初 。 早 期 图 像 处 理 的 目的 是 改善 图 像 
的 质量 ， 它 以 人 为 对 象 ， 以 改善 人 的 视觉 效 果 为 目的 。 


下 面 先 来 看 一 下 图 像 的 基本 属性 。 首 先是 亮度 ， 也 称 灰 度 ， 它 是 大 
家 种 说 的 YUV 格 式 的 Y 分 量 ， 如 果 使 用 RGB 表示 图 像 ， 那 么 可 采用 前 面 
章节 中 提 到 的 公式 转换 出 亮度 信息 ; 其 次 是 对 比 度 (contrast) ， 即 画面 
黑 与 白 的 比值 ， 也 束 是 从 黑 到 白 的 渐变 层次 ， 比 值 越 大 ， 说 明 从 黑 到 白 
的 渐变 层次 越 多 ， 色 彩 表 现 越 丰 宣 ， 最 后 是 饱和 度 〈saturation) ， 是 指 
色彩 的 鲜艳 程度 ， 也 称 为 色彩 的 纯度 。 了 解 了 图 像 的 这 几 个 基本 特征 
后 ， 下 面 看 看 如 何 改变 一 张 图 像 里 的 这 些 特征 ， 以 及 改变 这 些 特征 会 对 
整 张 图 像 有 什么 影响 。 








9.1.1 亮度 调节 


亮度 调节 的 实现 有 两 种 方法 : 一 种 方法 是 非 线性 襄 度 调节 ， 夯 外 一 
种 方法 是 线性 亮度 调节 ， 下 面 逐 一 进行 介绍 


首先 是 非 线 性 腕 度 调 万。 它 的 实现 非常 简单 ， 即 对 于 图 像 的 RGB 通 
道 ， 每 个 通道 增加 相同 的 增 量 。 其 伪 代 码 如 下 : 











byte* image = JoadImage() ; 

byte* r,g,b = interlaceImage(image); 
int brightness = 3; 

r += brightness,; 

g += brightness; 

b += brightness; 





上 述 代 码 的 实现 非常 简单 : 步调 用 loadImage 方 法 将 一 张 图 片 
加 载 到 内 存 ; Yo 0 再 对 这 三 个 通道 分 别 增加 相 
应 的 亮度 值 。 这 种 亮度 调节 方法 的 优点 是 ， 代 码 简单 ， 亮 度 调 整 速 度 
快 ， 缺点 是 图 像 信息 损失 比较 大 ， 调 整 过 的 图 像 平 淡 ， 无 层次 感 。 


其 次 是 线性 亮度 调节 ， 在 介绍 这 种 调节 方式 之 前 ， 先 介绍 HSL 色 彩 
模式 。 HSL 是 工业 界 的 一 神 颅 色 标准 ， 代表 色相 CHue) 、 饱 和 度 
ee ee 
0 一 255 的 数值 来 表示 。 这 种 调节 是 通过 对 色相 、 饱 和 度 、 明 度 三 个 颜色 
通道 的 变化 及 其 相互 之 间 的 骆 加 来 得 到 各 种 颜色 。 线 性 亮度 调节 就 是 先 
将 RGB 表 示 的 图 像 转换 为 HSL 的 颜色 空间 ， 然 后 对 LL 通道 进行 调节 ， 得 
到 新 的 L 值 ， 再 与 HS 通道 合并 为 新 的 HSL， 最 终 转 换 为 RGB 得 到 新 的 图 
像 。 下 面 用 伪 代 码 来 实现 上 述 的 过 程 ， 第 一 步 先 用 RGB 计 算出 L 值 : 











L = (max(r, max(g, b)) + min(r, min(g, b))) / 2; 





L 的 取 值 范围 是 [0，255]， 然 后 利用 LL 值 与 RGB 分 别 求 出 HS 部 分 的 
值 : 





if(L > 128) { 
rHS = (r * 128 - (L - 128) * 256) / (256 - L); 
gHS = (g * 128 - (L - 128) * 256) / (256 - L); 
bHS = (b * 128 - (L - 128) * 256) / (256 - L); 


r* 128 / [L; 
g* 128 /上 L， 
b * 128/L; 


相对 
CD 
IN HH 





再 调整 L 值 的 亮度 得 到 新 的 L 值 ， 并 用 新 的 L 值 和 上 面 计 算出 的 HS 的 
值 求 出 新 的 RGB， 代 码 如 下 : 





int delta = 20;// [0-255] 
newL = L + delta - 128; 
if(newL > 0) { 


newR = rHS + (256 - rHS) * newL / 128; 

newG = gHS + (256 - gHS) * newL / 128; 

newB = bHS + (256 - bHS) * newL / 128; 
} else { 

newR = rHS + rHS * newL / 128; 

newG = gHS + gHS * newL / 128; 

newB = bHS + bHS * newL / 128; 











得 到 新 的 RGB 像 素 点 束 是 调 市 有 党 度 之 后 的 像 系 点 。 综 上 所 述 ， 线 性 
亮度 调节 的 优点 是 调节 过 的 图 像 层 次 感 很 强 ;， 缺点 是 代码 复 淋 ， 调 市 速 
度 慢 ， 而 且 当 亮度 增 减 量 较 大 时 图 像 有 很 大 失真 。 











9.1.2 对比度 调节 


对 比 度 调 节 要 针对 RGB 三 个 通道 同时 调整 ， 而 不 能 对 三 个 通道 分 别 
调整 ， 因 为 分 别 调整 会 造成 色 偏 的 问题 。 对 于 这 三 个 通道 的 调整 ， 可 以 
用 一 条 函数 曲线 来 将 原始 的 RGB 作 为 输入 ， 对 应 这 条 函数 曲线 的 输出 就 
是 调整 后 的 结果 。 


设置 对 比 度 的 函数 如 下 : 





y= (x- 0.5) * contrast + 0.5; 





这 条 函数 曲线 的 y 代 表 输 出 ，x 代 表 输 入 ， 这 条 曲线 会 同时 作用 到 
RGB 三 个 通道 。 如 果 contrast 值 为 1， 则 输出 等 于 输入 ， 即 曲线 为 一 条 笠 
率 为 1 的 直线 。 如 果 想 增加 对 比 度 ， 即 扩大 整 幅 图 像 所 占 色彩 的 表现 程 
度 ， 则 要 将 contrast 设 置 为 大 于 1 的 数值 ， 例 如 要 设置 这 个 系数 为 1.2， 曲 
线 图 如 图 9-1 所 示 。 
































9-1 





图 9-2 


为 了 方便 对 比 ， 图 9-1 中 浅 色 的 直线 斜率 为 1， 代 表 输 出 和 输入 是 一 
样 的 ， 深 色 的 直线 代表 加 大 对 比 度 的 函数 曲线 ， 大 家 可 以 从 x 轴 的 0.5 这 
个 点 看 起 ， 左 边 深 颜色 曲线 下 降 得 更 快 一 些 ， 右 边 深 颜色 的 曲线 上 升 得 
更 快 一 些 ， 最 终 会 导致 整 幅 图 像 所 表示 的 色彩 更 加 丰富 。 从 图 9-1 可 以 
看 到 ， 这 张 图 片 从 原来 的 0.25 一 0.75 这 段 表示 颜色 的 范围 〈 即 0.5) 的 输 
入 最 终 扩展 成 为 0.2 一 0.8 这 段 表示 颜色 的 范围 《 即 0.6) ， 也 就 是 说 ， 扩 
大 了 颜色 表示 范围 。 如 果 选 取 contrast 的 值 为 0.8， 则 代表 缩小 了 色彩 的 
表示 范围 。 如 图 9-2 所 示 ， 同 样 看 横 轴 ， 和 输入 范围 从 0.25 一 0.75 就 被 缩小 
为 0.3 一 0.7 了 ， 也 就 是 颜色 范围 为 0.5 最 终 缩小 到 了 0.4。 大 家 可 以 通过 一 
张 图 片 去 得 看 这 种 函数 曲线 的 处 理 效果 。 


9.1.3 ”饱和 度 调 节 


图 像 的 饱和 度 调 节 有 很 多 种 方法 ， 最 简单 的 方法 就 是 判断 每 个 像素 
的 R、G、B 值 是 否 大 于 或 小 于 128， 若 大 于 ， 则 加 上 调节 值 ， 小 于 则 减 
去 调节 值 ;， 也 可 将 像素 RGB 转换 为 HSV， 然 后 调整 其 $ 部 分 ， 从 而 达到 
线性 调节 图 像 饱和 度 的 目的 。 这 里 介绍 第 一 种 比较 简单 的 方法 ， 首 先 通 
过 RGB 计算 出 本 像素 点 的 亮度 值 ， 计 算 公 式 如 下 : 








luminance = 0.2125 * R + 0.7154 * G + 0.0721 * B; 


然后 设计 一 个 可 以 调节 饱和 度 大 小 的 参数 saturation， 取 值 范围 为 
[0.0，2.0]， 默 认 值 为 1.0， 代 表 输 出 图 像 就 是 输入 图 像 ， 像 素 不 做 任何 
变化 。 如 果 取 值 为 0.0， 则 代表 为 灰 度 图 ; 知 取 值 为 2.0， 则 代表 饱和 度 
最 大 全 起 如 下 : 


output = (1.0 - saturation) * vec3(luminance) + Saturation * Vec3(R，G，B)， 


因为 饱和 度 代 表 了 色彩 的 纯度 ， 所 以 增加 饱和 度 时 ， 首先 要 对 RGB 
都 乘 以 大 于 1.0 的 系数 ， 然 后 减 去 一 个 亮度 值 ， 防 止 其 亮度 不 一 致 。 反 
之 ， 降 低 饱 和 度 原 理 也 是 一 样 的 。 





9.2 图像 处 理 进 阶 


9.1 市 讲解 了 图 像 的 基本 特征 ， 以 及 如 何 调节 这 些 基本 的 特征 来 达 
到 我 们 想 要 的 效果 。 但 是 ， 仪 仅 和 凭借 这 些 基 本 特征 的 修改 还 是 很 难 达 到 
实际 生产 环境 的 要 求 ， 因 此 本 市 给 大 家 介绍 一 些 更 加 复杂 的 图 像 处 理 。 
线性 滤波 可 以 说 是 图 像 处 理 中 的 一 种 常用 方法 ， 它 允许 我 们 对 图 像 进行 
处 理 ， 产 生 多 种 不 同 的 效果 。 做 法 很 简单 ， 假 设 有 一 个 二 维 的 滤波 器 矩 
阵 〈《 有 一 个 高 大 上 的 名 字 叫 卷 积 核 ) 和 一 个 要 处 理 的 二 维 图 像 ， 那 么 ， 
对 于 图 像 的 每 个 像素 点 ， 先 计算 它 的 邻 域 像素 和 滤波 器 和 矩阵 的 对 应 元 素 
的 乘积 ， 然 后 加 起 来 ， 以 此 作为 该 像素 位 置 的 值 ， 即 完成 整个 滤波 过 


程 。 





9.2.1 图 像 的 卷 积 过 程 


对 图 像 和 涯 小 矩阵 进行 逐个 元 素 相 乘 再 求 和 的 操作 ， 相 当 于 将 一 个 
二 维 的 函数 移动 到 另 一 个 二 维 函 数 的 所 有 位 置 ， 这 个 操作 就 叫 卷 积 。 虽 
然 卷 积 是 图 像 最 基本 的 操作 ， 但 却 非常 有 用 ， 这 个 操作 有 两 个 基本 特 
点 : 一 是 这 个 操作 十 线性 的 ， 也 就 是 我 们 用 每 个 像 系 与 其 邻 域 的 线性 组 
合 来 代 丛 这 个 像素 ; 二 是 具有 平移 不 变性 ， 是 指 我 们 在 图 像 的 每 个 位 置 
都 执行 相同 的 操作 。 正 是 因为 具有 这 两 个 特性 ， 后 期 才 可 以 将 图 像 处 理 
的 算法 迁移 到 显卡 《GPU) 中 去 执行 ， 这 在 后 期 做 算法 优化 的 时 候 会 有 
更 加 深刻 的 认识 。 


对 于 平面 图 像 的 卷 积 ， 一 般 称 为 2D 卷 积 ， 因 为 需要 多 个 岁 套 的 循 
环 ， 所 以 执行 速度 比较 慢 ， 除 非 我 们 使 用 比较 小 的 卷 积 核 。 所 谓 卷 积 
核 ， 即 选择 这 个 像素 点 周围 领域 的 多 少 ， 一 般 选 用 3x3 或 者 5x5 的 卷 积 
核 。3x3 的 卷 积 核 是 由 中 间 像 素 点 和 周围 包围 着 它 的 8 个 像素 点 共同 组 成 
一 个 3x3 的 和 矩阵。 在 移动 端 ， 性 能 肯定 是 最 重要 的 ， 所 以 我 们 一 般 选 择 
上 下 左右 相 邻 的 四 个 领域 像素 点 来 组 成 卷 积 核 来 做 卷 积 操作 。 但 不 论 是 
何 种 卷 积 核 ， 都 会 要 求 所 有 的 像素 点 加 起 来 都 是 奇数 ， 这 样 才 会 以 本 像 
素 作 为 中 心 点， 然后 以 领域 像素 点 (偶数 ) 来 和 本 像素 点 做 线性 县 加 运 
算 。 规 定 了 卷 积 核 之 后 ， 就 可 以 定义 自己 的 滤波 器 和 矩阵 了 ， 滤 波 器 和 矩阵 
一 般 有 如 下 要 求 : 


滤波 器 算 阵 的 元 系数 目 一 般 为 奇数 ， 这 样 才 会 有 一 个 中 心 。 

滤波 器 和 矩阵 所 有 的 元 素 之 和 应 该 等 于 1， 这 是 为 了 保持 膨 度 不 变 。 
:为 了 防止 过 载 ， 滤 波 后 的 像素 点 的 值 一 定 要 维持 在 0 一 255 之 间 。 

下 面 先 定义 一 个 不 会 做 出 任何 影响 的 卷 积 操作 的 疮 积 和 矩阵 ， 代 码 如 











然后 拿 一 幅 图 片 的 所有 像素 点 及 其 领域 像素 点 来 做 卷 积 操作 ， 你 会 


看 到 ， 我 们 定义 的 卷 积 矩阵 中 心 像 际 点 的 权重 为 1， 领 域 像 妹 点 的 权重 
为 0。 因 此 ， 鳃 加 之 后 的 像 系 点 结果 束 古 这 个 像素 点 的 原始 值 。 读 者 可 
以 自己 理解 整个 郑 积 过 程 。 


9.2.2” 锐 化 效果 器 


图 像 的 锐 化 就 是 补偿 图 像 的 轮廓 ， 增 强 图 像 的 边缘 及 灰 度 跳 变 的 部 
分 ， 使 图 像 变 得 更 加 清晰 。 在 一 般 的 磨 皮 效果 器 或 者 视频 解码 之 后 ， 图 
像 往往 会 变 得 比较 平 请 。 从 频 域 的 角度 来 考虑 ， 图 像 模 糊 的 实质 是 因为 
其 高 频 部 分 的 能 量 被 衰减 ， 而 用 户 直接 看 到 的 现象 就 是 图 像 中 的 边界 
Cedge) 、 轮 廓 变 得 模糊 ， 为 了 降低 这 种 不 利 的 效果 ， 通 音 要 使 用 扩展 
对 比 度 效果 器 、 去 块 滤波 器 ， 此 外 ， 还 会 使 用 到 锐 化 效果 器 。 


实现 锐 化 效果 器 的 方法 很 简单 ， 也 是 通过 图 像 卷 积 来 完成 的 ， 因 为 
0 
隆 : 





int matrix[3][3] = { 
9， -1, 0, 


= 二 5) -1; 
0,-1, 0 
} 


上 面 这 个 矩阵 实际 上 是 将 要 处 理 的 像素 点 与 其 上 下 左右 四 个 领域 像 
素 点 按照 矩阵 描述 来 做 线性 全 加， 从 和 窍 阵 中 对 像素 点 的 权重 分 配 可 以 看 
出 ， 这 个 卷 积 矩阵 实际 上 束 是 计算 当前 点 和 领域 像素 点 的 Diff 值 ， 然 后 
将 所 有 的 Diff 值 再 加 到 这 个 像素 点 上 。 因 此 ， 当 当前 像素 点 和 领域 像素 
扩 差 别 不 大 的 时 候 ， 郊 积 之 后 的 结果 是 不 变 的 ， 而 当 它 正好 是 一 个 边 毕 
或 者 细节 点 的 时 候 ， 束 会 更 加 突出 这 个 边缘 或 细节 。 上 面 的 卷 积 操 作 实 
际 上 只 做 了 5 个 像 系 点 ， 如 果 卷 积 核 确实 要 做 3x3 的 话 〈 即 9 个 像素 
点 ) ， 那 么 卷 积 矩阵 如 下 : 











int matrix[3][3] = { 
-1, -1, -1, 


=1; 9, = 二 
Ss 
} 





I 
了 下 


int matrix[3][3] = { 





其 中 ，k 的 取 值 范围 为 [0.0，2.0]， 如 采取 值 为 0.0， 则 代表 什么 都 不 
做 ， 输 出 图 像 和 输入 图 像 是 一 样 的 ， 如 果 取 值 为 2.0， 则 代表 锐 化 程度 
达到 最 大 。 这 里 只 需要 理解 原理 ， 后 面 会 给 出 具体 的 实现 代码 。 


边缘 检 训 算法 与 锐 化 的 类 似 ， 本 质 上 也 是 做 矩阵 的 卷 积 运算 ， 只 是 
和 窍 阵 所 有 的 元 系 之 和 都 是 9， 因为 我 们 的 目的 是 得 到 边缘 信息 ， 所 以 只 
需要 以 灰 度 图 作为 输入 就 可 ， 并 且 在 计算 像素 点 的 时 候 只 需要 取出 一 个 
和 
0 下 : 





int horizontalMatrix[3][3] = { 
. 1, 
0, 0, 0, 


1, 1, 1 
} 


这 个 矩阵 可 以 检测 出 所 有 横 回 的 边缘 ， 同 理 ， 可 以 利用 下 面 矩 阵 找 
出 所 有 纵向 的 边缘 : 


int verticalMatrix[3][3] = { 
了 1, 


“1; 0, 1, 
-1, 0, 1 
} 





找 出 这 两 个 边缘 后 之后 ， 可 以 做 一 个 平方 和 来 代 蔡 当前 点 的 腕 上 度 
值 。 大 家 可 以 设想 一 下 ， 如 果 当 前 像 系 后 的 值 和 领域 的 8 个 像 系 点 的 值 
是 一 样 的 ， 那 么 出 来 的 值 必 为 0， 也 就 是 黑色 的 ， 但 是 ， 一 旦 有 差别 ， 
就 会 是 一 个 大 于 0 的 亮度 值 ， 兰 别 越 大 ， 腕 度 值 也 越 大 。 


9.2.3 ”高 斯 模糊 算法 


其 实 模糊 滤波 器 就 是 对 周围 像素 进行 加 权 平 均 处 理 ， 对 于 均值 模糊 
算法 来 讲 ， 周 围 所 有 邻 域 像素 点 的 权 值 都 相同 ， 所 以 不 是 很 平滑 ， 会 显 
得 糊糊 的 一 片 。 高 斯 模糊 就 是 用 来 解决 这 个 问题 的 ， 它 会 把 图 像 的 模糊 
处 理 得 很 平滑 ， 正 因为 这 个 优点 ， 所 以 被 广泛 用 在 图 像 降 噪 上 ， 特 别 是 
i 
可 分 配 的 。 


高 斯 模糊 的 权重 是 正 态 分 布 的 权重 ， 正 态 分 布 是 一 种 可 取 的 权重 分 
配 模式 。 正 态 分 布 在 图 形 上 表示 为 一 种 钟 形 曲线 ， 越 接近 中 心 ， 取 值 越 
大 ， 越 远离 中 心 ， 取 值 越 小 。 大 多 数 统计 表明 ， 生 活 中 的 很 多 特征 都 呈 
正 态 分 布 ， 包 括 人 类 的 智力 、 吴 高 、 考 试 成 绩 等 。 图 像 处 理 也 一 样 ， 只 
需要 将 中 心 像 素 点 作为 原点 ， 以 领域 像素 点 距 中 心 像素 点 的 远近 分 配合 
适 的 高 斯 权重 ， 就 可 以 得 到 一 个 高 斯 加 权 平 均值 。 


在 图 像 处 理 领 域 ， 需 要 使 用 二 维 的 高 斯 分 布 函 数 来 实现 高 斯 模糊 的 
算法 ， 二 维 高 斯 函数 如 下 所 示 。 
) 全 T 9 人 ( -1 ) 
-0 / 


0 010) 0) 

其 中 ， H1、H2、 01、 6 和 p 都 是 常数 ， 我 们 称 (x， y) 服从 参数 为 
H1、H2、61、65 和 p 的 二 维 正 态 分 布 。 如 果 以 权重 大 小 作为 纵 坐 标 ， 与 二 
维 图 像 就 形成 一 个 三 维 空间 ， 这 个 函数 在 三 维 空间 中 的 图 像 就 是 一 个 李 
圆 切面 的 钟 倒 扣 在 O (x，y) 平面 上 ， 如 图 9-3 所 示 ， 其 中 心 在 《hi， 
hp) 所。 
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人 
? 0D 下 : 


int martrix[5][5] = { 
1, 4, 7, 4,1, 


了 晶 » 了 
4,16, 26, 16, 4, 
7, 26, 41, 26,7, 





图 9-3 
像素 点 与 领域 像素 点 对 矩阵 进行 卷 积 之 后 ， 将 其 结果 除 以 273〔 所 





有 权重 值 之 和 ) ， 可 得 到 亮度 相同 的 像素 点 蔡 换 原始 像素 点 。 这 里 仅 需 
理解 原理 ， 后 面 会 给 出 具体 的 实现 代码 。 


9.2.4 双边 滤波 算法 


双边 滤波 bilateral filter) 是 一 种 可 以 降 品 保 边 的 滤波 器 。 之 所 以 
可 以 达到 此 效果 ， 是 因为 滤波 器 是 由 两 个 因素 共同 影响 的 : 一 个 是 由 几 
何 空 间距 离 决定 滤波 器 系数 ， 男 一 个 是 由 像素 差 值 决 定 滤波 器 系数 。 几 
何 空间 距离 类 似 于 高 斯 模糊 算法 ， 由 距离 中 心 像 素 点 的 远近 来 确定 权重 
值 ， 但 是 这 个 权重 值 到 抵 能 不 能 起 作用 还 得 看 第 二 个 因素 ， 即 像素 差 
值 ， 如 果 像素 差 值 过 大 ， 那 么 殊 有 可 能 不 让 参与 最 终 的 权重 计算 ， 以 达 
到 保 边 的 效果 ; 如 果 差 值 不 太 大 ， 束 可 以 达到 降 品 的 效果 。 双 边 滤 小 在 
0. 0 














我 们 可 以 通过 一 张 图 片 来 了 解 整 个 双边 滤波 的 过 程 ， 如 图 9-4 所 
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图 9-4 


首先 ， 假 设 左 边 的 input 所 代表 的 是 图 片 ， 其 中 箭头 指 同 的 边 就 是 用 
来 确定 双边 滤波 权重 的 过 程 ; 右边 的 result 所 代表 的 就 是 图 片 最 终 经 过 
双边 滤波 句 处 理 之 后 的 结 末 ， 其 中 箭头 指 同 的 位 置 的 边 虽 然 被 保留 了 下 
来 ， 但 是 在 两 个 平面 上 的 毛刺 被 平滑 掉 了 ， 这 也 就 是 我 们 希望 达到 的 两 
个 目的 一 一 保 边 和 降 噪 。 


接 下 来 分 析 这 个 权重 具体 是 如 何 确定 的 。 先 是 左边 的 空间 权重 
(spatial weight) 部 分 ， 这 个 权重 就 是 一 个 高 斯 权重 的 分 布 ， 再 看 右边 
的 像素 产值 权重 (range weight) 部分， 这 里 的 权重 是 根据 像素 点 差异 大 
小 计算 出 来 的 权重 大 小 ， 像 素 点 差异 越 大 ， 权 重 越 小 ， 所 以 这 里 在 边缘 
部 分 的 权重 非常 小 ， 然 后 将 两 者 相 乘 得 到 我 们 的 最 终 权 重信 息 ; 最 后 将 
该 权重 信息 和 领域 像素 点 做 加 权 平 均 ， 从 而 蔡 换 当前 像素 点 ， 对 这 幅 图 
片 的 所 有 像素 点 做 相同 的 操作 ， 最 终 得 到 结果 图 片 。 



































9.2.5 ”图 层 泥 合 介 绍 


图 层 混合 是 指 两 个 图 层 需 要 混合 在 一 起 ， 可 通过 多 种 模式 来 实现 这 
种 混合 。 在 Photoshop 中 有 27 种 以 上 的 混合 模式 ， 我 们 可 以 目 己 实现 各 
种 混合 模式 ， 本 节 挑 选 几 个 比较 常见 的 图 层 混合 模式 进行 讲解 。 不 过 ， 
首先 要 确定 几 个 术语 ， 然 后 再 分 别 来 讲解 几 种 常见 的 混合 模式 。 


所 有 的 图 层 混合 Re (即便 是 N 个 图 层 ， 
也 可 以 一 一 混合 之 后 再 与 后 面 的 图 层 进行 混合 ) 。 我 们 规定 : A 代表 上 
面 图 层 的 色彩 值 ，B 代 表 下 面 图 层 的 色彩 值 ， We“ 之 后 的 色彩 
值 。 所 有 色彩 值 的 表示 类 型 为 浮 点 类 型 ， 取 值 范 围 是 [0.0，1.0]。 


1. 正 片 倒 底 混合 模式 


将 两 个 颜色 的 像素 值 相 乘 ， 得 到 的 结果 就 是 最 终 色 的 像素 值 。 
来 说 ， 执 行 正 请 登 底 混 合 之 后 的 颜 色 比 原来 两 种 颜色 都 深 。 笃 何 关 色 与 
黑色 正片 登 底 混 合 之 后 得 到 的 仍然 是 黑色 ， 任 何 颜色 与 白色 正方 登 底 混 
合 之 后 仍 保持 原来 的 颜色 个 变 ， 而 与 其 他 颜色 执行 正片 县 底 混合 模式 之 
后 ， 会 产生 暗室 中 以 该 种 颜色 照明 的 效果 。 公 式 如 下 : 


























C=A* B; 











这 种 混合 模式 常用 于 将 上 层 图 片 的 白色 部 分 透 过 去 ， 从 而 显示 出 下 
面 图 片区 域 的 全 部 颜色 ， 其 他 颜色 加 深 的 场景 。 因 此 有 一 个 易于 记忆 的 
口诀 : 谁 黑 听 谁 的 ， 和 白色 彻底 无 视 。 


2. 滤 色 混 合 口 模式 


与 正片 琶 底 混合 模式 刚好 相反 ， 滤 色 混 合 是 将 两 个 颜色 的 互补 色 的 
像素 值 相 乘 ， 得 到 了 最 终 斋 色 的 像素 值 。 通 第 来 说 ， 执 行 滤 色 混合 模式 后 
的 颜色 都 较 浅 。 任 何 颜色 与 黑色 执行 混合 滤 色 之 后 ， 原 色 不 受 影响 ， 任 
何 闫 色 与 白色 执行 滤 色 混合 之 后 得 到 的 是 白色 ; 与 其 他 颜色 执行 滤 色 混 
合 后 会 产生 漂 昌 的 效果 。 公 式 如 下 : 














滤 色 混合 模式 使 用 的 场景 ， 比 如 有 一 张 逆光 的 图 片 ， 看 着 比较 黑 
暗 ， 我 们 先 复制 一 份 ， 然 后 将 复制 的 这 张 照片 与 原始 图 像 进行 滤 色 混 
， 就 可 以 得 到 一 种 不 错 的 效 末 。 因 此 有 一 个 易于 记忆 的 口诀 : 谁 白 上 听 
谁 的 ， 黑 色 彻 底 无 视 。 


3. 登 加 混合 模式 


在 保留 底 色 明暗 变化 的 基础 上 使 用 “正片 登 底 ?或 “ 滤 色 ?混合 模式 ， 
虽然 绘图 的 颜色 被 便 加 到 底 色 上 ， 但 会 保留 底 色 的 高 光 和 阴影 部 分 。 底 
色 的 颜色 没有 被 取代 ， 而 是 与 绘图 色 混 合 来 体现 原 图 的 亮 部 和 上 暗部。 使 
用 疮 加 混合 模式 可 使 底 色 的 图 像 饱 和 度 及 对 比 度 得 到 相应 提高 ， 这 会 使 
图 像 看 起 来 更 加 人 鲜亮。 公式 如 下 : 





> 


if(B <= 0.5) { 
C= 2* A* B: 

} else { 
C=1 


} 


-2*(1-A)* (1-B); 





上 层 决 定 下 层 中 间 色 调 偏 移 的 强度 。 如 果 上 层 为 50% 灰 ， 则 结果 完 
全 为 下 层 像 素 的 值 。 如 果 上 层 比 50% 灰 暗 ， 则 下 层 的 中 间 色 调 将 向 上 暗 地 
方 偏 移 。 如 果 上 层 比 50% 灰 亮 ， 则 下 层 的 中 间 色 调 将 同 亮 地 方 偏 移 。 对 
于 上 层 比 50% 灰 暗 ， 下 层 中 间 色 调 以 下 的 色 带 变 窗 《原来 为 0 一 
2x0.4x0.5， 现 在 为 0 一 2x0.3x0.5) ， 中 间 色 调 以 上 的 色 带 变 宽 〈 原 来 为 
2x0.4x0.5 一 1， 现 在 为 2x0.3x0.5~1) ; 反之 亦 然 。 


4. 柔 光 混 合 模式 


根据 绘图 色 的 明暗 程度 来 决定 最 终 色 是 变 亮 还 是 变 蜡 。 当 绘图 色 比 
50% 的 灰 要 腕 时 ， 底 色 图 像 变 赂 ; 当 绘 图 色 比 50% 的 灰 要 蜡 时 ， 底 色 图 
像 就 变 暗 。 如 果 绘 图 色 有 纯 黑 色 或 纯 白 色 ， 那 么 最 终 色 不 是 黑色 或 白 
色 ， 而 是 会 和 微 变 瞳 或 变 宫 。 如 末 底 色 是 纯 白色 或 纯 黑色 ， 则 不 产生 任 
何 效 果 。 这 种 效果 与 发 散 的 聚光灯 照 在 图 像 上 的 相似 。 公 式 如 下 : 





























if(A <= 0.5) { 
=(2*A-1)*(B-B*B)+B; 
} else { 

C=(2*A- 1) * (sgqrt(B) - B) + B; 


5. 强 光 混 合 模式 


根据 绘图 色 来 决定 是 执行 “正片 登 底 ”还 是 “ 滤 色 ”混合 模式 。 当 绘图 
色 比 50% 的 灰 要 亮 时 ， 底 色 变 亮 ， 这 与 执行 滤 色 混合 模式 一 样 ， 对 增加 
图 像 的 高 光 非 常 有 帮助 ， 当 绘图 色 比 50% 的 灰 要 上 暗 时 ， 底 色 变 瞳 ， 这 与 
执行 正片 装 底 混合 模式 一 样 ， 可 增加 图 像 的 暗部 。 当 绘图 色 是 纯 白 色 或 
黑色 时 ， 得 到 的 是 纯 白 色 和 黑色 。 这 种 效果 与 漆 眼 的 聚光灯 照 在 图 像 上 
的 相似 。 公 式 如 下 : 





if(A <= 0.5) { 
C=2*A* 


} else { 
C=1-2*(1-A)* (1 - B); 
} 





强 光 混合 模式 的 效果 完全 等 价 于 县 加 混合 模式 中 两 个 图 层 进行 顺序 
交换 的 效果 。 如 果 上 层 的 颜色 高 于 50% 灰 ， 则 下 层 越 宫 ， 肥 之 越 瞳 。 


9.3 ”使 用 FFEmpeg 内 部 的 视频 滤 镜 


通过 前 面 两 节 的 介绍 ， 大 家 应 该 已 经 了 解 了 图 像 的 基本 处 理 以 及 比 
较 复杂 的 处 理 。 但 是 ， 如 果 在 工作 中 过 到 一 些 问题 ， 是 否 需 要 我 们 自己 
去 实现 一 些 很 基础 的 视频 滤 镜 呢 ? 答案 当然 是 否定 的 ， 所 以 本 节 介 绍 如 
何 利用 FFmpeg 的 视频 滤 镜 模块 来 解决 应 用 场景 下 的 问题 。 








9.3.1 FFmpeg 视 频 滤 镜 介绍 


第 3 章 已 经 详细 介绍 了 如 何 使 用 FFmpeg 的 命令 行 模式 来 完成 视频 滤 
镜 的 添加 ， 因 为 在 实际 工作 中 ， 特 别 是 在 客户 端 开 发 中 很 难 直接 使 用 命 
令 行 去 完成 工作 ， 所 以 本 节 会 详细 介绍 如 何在 代码 层 使 用 FFmpeg 提 供 
的 内 置 视频 滤 镜 。 


基于 前 面 章节 对 FFmpeg 的 了 解 ， 不 论 是 首 频 小 镜 还 是 视频 滤 镜 ， 
都 是 针对 原始 格式 进行 的 操作 ， 而 原始 格式 对 应 到 FFmpeg 中 ， 封 装 的 
结构 体 就 是 AVFrame， 所 以 我 们 进行 滤 镜 处 理 的 时 机 古 确 定 的 ， 即 在 编 
I 在 录制 视频 的 场景 下 ， 视 频 处 理 的 时 机 如 图 9-5 
外。 


摄像 头 采 
集 视频 帧 











经 MUX 操 作 
与 0 操作 









网 络 流 或 
本 地 文件 
图 9-5 


从 图 9-5 中 可 以 看 到 ， 视 频 滤 镜 是 针对 解码 之 后 的 AVFrame 进 行 的 
处 理 ， 处 理 完 毕 之 后 的 数据 格式 也 是 原始 数据 格式 ， 最 终 再 进行 编码 以 
及 写 到 网 络 流 或 者 本 地 文件 中 。 在 播放 器 场景 下 ， 视 频 处 理 的 流程 如 图 
9-6 所 示 。 








图 9-6 


视频 的 播放 过 程 恰 好 是 录制 的 一 个 逆 过 程 ， 当 解码 结束 之 后 ， 就 可 
以 进行 视频 处 理 ， 处 理 完毕 之 后 也 是 原始 格式 。 现 在 我 们 已 经 明确 了 视 
频 滤 镜 处 理 的 时 机 或 者 FFmpeg 视 频 滤 镜 的 输入 是 什么 了 ， 并 且 了 解 了 
输出 也 是 一 个 AVFrame 的 数据 结构 。 接 下 来 看 如 何 使 用 FFmpeg 的 视频 
滤 镜 。 在 使 用 FFmpeg 做 视频 滤 镜 处 理 之 前 ， 要 确保 在 编译 FFmpeg 的 配 
置 阶段 打开 了 我 们 想 使 用 的 视频 滤 锐 ， 如 果 没 有 打开 想 使 用 的 滤 镜 ， 那 
么 在 初始 化 的 时 候 就 会 出 错 。 


9.3.2” 滤 镜 图 的 构建 


在 最 开始 注册 所 有 封装 格式 和 编码 器 的 地 方 也 要 对 过 滤器 进行 注 
册 ， 代 码 如 下 : 





avfilter_register_all(); 





下 面 以 播放 器 应 用 为 例 进行 讲解 。 首 先 ， 打 开 资 源 文件 ， 然 后 初始 
化 视频 滤 镜 处 理 器 。 由 于 在 FFmpeg 中 的 视频 滤 镜 处 理 器 是 以 一 个 图 状 
的 结构 来 完成 复杂 图 像 处 理 的 ， 因 此 移 要 分 配 出 一 个 处 理 器 的 图 状 结构 
来 完成 视频 滤 镜 的 操作 ， 人 代码 如 下 : 








AVFilterGraph *filter_graph,; 
filter_graph = avfilter_graph_alloc(); 





接 下 来 为 _graph 添 加 一 个 起 始 的 Filter， 作 为 视频 帧 数据 的 接受 者 ， 
代码 如 下 : 





AVFilterContext *buffersrc ctx; 

AVFilter *buffersrc = avfilter_get_by_name("buffer"); 

char args[512]; 

snprintf(args, sizeof(args), 
"video_ size=%dx%d:pix_fmt=%d:time_base=%d/%d:pixel aspect=%d/%d", 
pCodecCtx->width, pCodecCtx->height, pCodecCtx->pix_fmt, 
pCodecCctx->time_base.num, pCodecCtx->time_base.den, 
pCodecCtx->sample_aspect_ratio.num, 
pCodecCtx->sample_aspect_ratio. den),; 

int ret = avfilter_graph_create filter(&buffersrc_ ctx, buffersrc, "in", args 
NULL, filter_graph); 

if(ret < 0) { 
LOGI("Cannot create buffer source Filter :", av_err2str(ret)); 
return ret; 





} 





从 上 述 代 码 中 可 以 看 到 ， 第 一 步 要 通过 名 称 将 “buffer” 这 个 Filter 找 
出 来 ;第 二 步调 用 方法 av filter_graph_create_filter 来 实例 化 这 个 
Filter 〈 由 于 这 个 Filter 是 源 ， 所 以 要 用 args 配 置 好 所 有 的 参数 ) ， 并 且 加 
入 上 一 阶段 创建 的 图 中 ， 如 果 返 回 负 数 ， 则 输出 信息 并 且 返 回 给 客户 端 
代码 。 接 下 来 再 为 _graph 添 加 一 个 终点 的 Filter， 作 为 提供 给 外 界 经 过 视 
频 滤 镜 处 理 过 的 视频 帧 ， 代 码 如 下 : 





AVFilterContext *buffersink_ctx; 
enum PixelFormat pix_fmts[] = { PIX_FMT_GRAY8, PIX_FMT_NONE }; 
AVFilter *buffersink = avfilter_get_by_name("buffersink"); 
AVBufferSinkParams *buffersink_params = av_buffersink_params_alloc(); 
buffersink_params->pixel_fmts = pix_fmts,; 
ret = avfilter_graph_create filter(&buffersink_ctx, buffersink, "out", NULL, 
buffersink_params, filter_graph); 
av_free(buffersink_params ) ， 
if (ret < 0) { 
LOGI("Cannot create buffer sink :", av_err2str(ret)); 
return ret; 








上 述 代 码 会 将 名 称 为 “buffersink” 这 个 Filter 按 照 配置 的 参数 实例 化 并 
旦 加 入 图 中 ， 代 表 这 个 图 状 结构 的 最 后 一 个 Filter。 现 在 这 个 图 的 架子 基 
本 搭建 起 来 ， 接 下 来 就 是 把 实际 要 处 理 的 图 像 的 Filter 加 入 图 中 。 但 在 此 
之 前 ， 要 先 解 决 两 个 问题 ， 第 一 个 问题 是 这 个 Filter 应 如 何 表 示 ; 第 二 个 
向 题 是 这 个 Filte- 应 该 放 入 图 的 哪个 位 置 。 先 看 如 何 描述 一 个 Ren， TE 
0 比如 给 图 片 做 镜像 的 效果 器 摘 述 








char filters_ descr[512]; 
snprintf(filters_ descr, sizeof(filters descr), "vflip"); 





如 果 需 要 多 个 效果 器 同时 工作 ， 则 可 以 以 逗号 的 形式 将 各 个 效果 器 
连接 起 来 。 下 面 的 代码 是 针对 Android 平 台 的 摄像 头 采 集 出 的 一 张 
640x480 的 图 片 ， 先 做 裁剪 ， 然 后 做 镜像 ， 最 后 做 一 次 270 度 或 者 90 度 的 
旋转 ， 代 码 如 下 : 





char filters_ descr[512]; 

int videowidth = 480; 

int videoHeight = 480; 

int cropLeftMargin = 180; 

int cameraId = FACING FRONT;// or FACING_ BACK 

snprintf(filters_ descr, sizeof(filters descr), 
"crop=%d:%d:%d:0,vflip,transpose=%d", videowidth, videoHeight, 
cropLeftMargin, cameraId % 2 == 0 1 : 2); 





下 面 来 看 这 个 Filter 应 该 连接 在 图 中 哪 一 个 市 点 的 后 面 ， 代 码 如 下 : 





AVFilterInOut *inputs = avfilter_inout_alloc(); 
inputs->name = av_strdup("out"); 
inputs->filter_ctx = buffersink_ctx; 


inputs->pad_ idx = 09; 
inputs->next = NULL 





上 述 代 码 中 的 AVFilterInOut 结 构 体 代表 效果 器 图 中 的 一 个 具体 节 
点 ， 而 这 个 节点 实际 上 束 是 前 面 所 声明 的 buffersink 所 代表 的 Filter。 接 
着 来 看 这 个 节点 应 该 连接 到 哪 一 个 节点 上 ， 代 码 如 下 : 











AVFilterInOut *outputs = avfilter_inout_alloc(); 
outputs->name = av_strdup("in"); 
outputs->filter_ctx = buffersrc_ ctx; 
outputs->pad_idx = 0; 

outputs->next = NULL; 





上 述 代 码 中 的 节点 实际 上 是 效果 占 图 的 起 始 节 点 。 效 果 器 节点 应 连 
接 到 前 面 的 buffersrc 节 点 上 。 解 决 了 上 述 问题 之 后 ， 将 这 个 Filter 加 入 图 
中 ， 完 成 操作 之 后 ， 要 释放 抒 我 们 构建 出 的 输入 和 输出 节点 ， 代 码 如 
局 





ret = avfilter_graph_parse_ptr(filter_graph, filters descr, 
&inputs, &outputs, NULL); 

avfilter_inout_free(&outputs); 

avfilter_inout_free(&inputs); 

if (ret < 0){ 
LOGI("avfilter_graph_parse ptr failed : ", av_err2str(ret)); 
return ret; 


} 





这 里 可 能 有 读者 会 怀疑 ， 我 们 是 不 是 将 这 个 Filter 给 连接 反 了 ， 也 就 
是 将 这 个 Filter 节 点 的 input 和 output 搞 错 了 。 确 实 ， 这 个 地 方 比较 绕 ， 笔 
者 读 源 人 码 发 现 ， 这 应 该 和 FFmpeg 内 部 是 如 何 构 建 效 果 器 图 是 有 关系 
的 ， 也 正 是 因为 FFEmpeg 内 部 实现 的 原因 ， 所 以 这 里 就 把 节点 的 输入 和 
输出 写 反 了 ， 读 者 可 以 通过 源码 理解 一 下 。 


现在 已 经 把 整个 图 构建 起 来 了 ， 接 下 来 做 最 重要 的 一 步 ， 即 配置 这 
个 图 ， 代 码 如 下 : 








if ((ret = avfilter_graph_config(filter_graph, NULL)) < 0){ 
LOGI("avfilter_graph_config failed :", av_err2str(ret)); 
return ret; 


} 








人 至此， 整个 效果 器 的 图 就 配置 好 了 。 接 下 来 学 习 如 何 真 正 使 用 刚刚 
配置 好 的 这 个 视频 小 镜 图 。 


9.3.3 ”使 用 与 销 绒 滤 镜 图 


前 面 已 经 介绍 过 ， 这 个 滤 镜 图 的 输入 是 一 个 AVFrame 结 构 体 ， 输 出 
同样 也 是 一 个 AVFrame 结 构 体 。 因 此 ， 先 分 配 出 一 个 输入 视频 帧 对 象 和 
一 个 输出 视频 帧 对 象 ， 代 码 如 下 : 





AVFrame *inputFrame = avcodec alloc frame(); 
AVFrame *outputFrame = avcodec alloc frame(); 








接 下 来 是 如 何 使 用 这 个 滤 镜 图 了 。 假 设 无 论 是 录制 视频 的 应 用 还 是 
视频 播放 器 的 应 用 ， 都 已 经 将 inputFrame 这 个 对 象 填 充 好 ， 那 么 如 何 将 
inputFrame 对 象 中 的 内 容 经 过 滤 镜 图 处 理 成 为 一 个 outputFrame 对 象 呢 ? 
代码 如 下 : 





if (av_buffersrc_add frame flags(buffersrc ctx, inputFrame, 0) < 0) { 
LOGI("Error while feeding the filter graph"); 
return -1; 


} 
while (1) { 
ret = av_buffersink_get_frame(buffersink_ctx, outputFrame); 
if (ret == AVERROR(EAGAIN) || ret == AVERROR_ EOF){ 
break; 


} 
// Do Something 
av_frame_unref(outputFrame); 





从 以 上 代码 中 可 以 看 出 ， 第 一 步 是 将 inputFrame 填 充 到 滤 镜 图 中 的 
第 一 个 节点 中 去 ; 第 二 步 是 进入 一 个 循环 ， 不断 从 滤 镜 图 中 的 最 后 一 个 
节点 拉 取 出 处 理 完毕 的 outputFrame， 然 后 将 outputFrame 进 行 对 应 处 
理 ， 如 果 是 视频 播放 器 ， 则 抽取 出 YUV 数 据 封 装 到 VideoFrame 结 构 体 
中 ;如果 是 视频 录制 器 ， 则 进行 赋值 pts 后 做 编码 操作 。 最 终 去 掉 对 
outputFrame 的 引用 并 重 置 这 个 结构 体 里 所 有 的 变量 。 


竺 最 终 使 用 完毕 之 后 ， 需 要 销毁 掉 滤 镜 图 与 对 应 分 配 的 视频 帧 资 











avfilter_graph_free(&filter_graph); 
// 销毁 其 他 资源 
av_frame_free(&inputFrame ) ， 
av_frame_free(&outputFrame ) ， 














9.3.4 ”和 常用 滤 镜 介绍 


下 面 介 绍 FFrmpeg 中 常用 的 视频 滤 镜 。 本 广 中 的 每 一 个 最 终 输 出 都 
征 一 串 字 符 ， 输 出 的 这 个 字符 串 可 以 直接 应 用 到 9.3.2 节 中 构建 的 Filter。 


1. 翻 转 、 旋 转 、 裁 切 
(1) 翻转 
在 FFmpeg 中 提供 了 垂直 翻转 和 水 平 翻转 两 种 类 型 的 效果 器 。 其 


中 ， 水 平 翻 转 是 给 图 片 做 镜像 操作 的 ， 名 称 为 "hflip”， 而 垂直 翻转 的 名 
称 为 “vflip”。 在 9.3.2 节 中 可 以 直接 使 用 的 滤 镜 字符 串 表 示 为 : 


const char* filters descr = "hflip"; 


(2) 旋转 


旋转 在 FFmpeg 中 使 用 transpose 来 表示 ， 有 0、1、2、3 四 种 取 值 ， 它 
们 分 别 表 示 的 含义 如 下 : 


-0: 逆 时 针 旋 转 90 度 并 做 垂直 翻转 ; 

1: 顺 时 针 旋 转 90 度 ; 

2: 逆 时 针 旋 转 90 度 《〈 即 顺 时 针 旋 转 270 度 ) ; 

-3: 顺 时 针 旋 转 90 度 并 做 垂直 翻转 。 

对 应 于 9.3.2 节 ， 可 以 直接 使 用 的 涯 镜 字 符 串 表示 为 : 





const char* filters_descr = "transpose=1"; 





(3) 裁 切 


裁 切 在 FFmpeg 中 使 用 crop 来 表示 ， 参 数 顺 序 依 次 为 width: height: 
top: left。 其 中 width 和 height 分 别 代表 的 含义 是 要 裁 切 成 的 目标 视频 的 








宽 和 高 ， 而 top 和 left 代 表 的 意义 是 从 原始 视频 的 顶部 位 置 和 左边 位 置 开 
始 截 取 。 对 应 于 9.3.2 节 ， 可 以 直接 使 用 的 滤 镜 字 符 串 表 示 为 : 





const char* filters_descr = "crop=480:480:180:0"; 





上 述 代 码 描 述 了 将 一 个 宽 为 480、 长 为 640 的 视频 从 顶部 距离 180 开 
台 裁 前 ， 最 终 裁 剪 为 一 个 长 和 宽 都 是 480 的 视频 。 


2. 增 加 水 印 / 消 除 水 印 
(1) 消除 水 印 


消除 水 印 的 做 法 比较 简单 ， 前 提 是 要 知道 水 印 在 视频 的 什么 区 域 ， 
视频 滤 镜 的 内 部 实现 会 将 这 一 块 区 域 做 一 个 模糊 ， 从 而 将 水 印 部 分 模糊 
掉 。 在 FFmpeg 中 用 delogo 来 消除 水 印 的 滤 镜 ， 参 数 为 x=x1: y=y1: 
w=w1: h=h1: band=band1。 其 中 前 四 个 参数 的 含义 大 家 应 该 比较 清 
楚 ，x 代 表 距 离 图 片 左边 缘 的 距离 ; y 代 表 距 离 图 片上 边缘 的 距离 ，w 与 
h 分 别 代表 水 印 区 域 的 宽度 和 高 度 ; 最 后 一 个 参数 band 代 表 模 糊 程 度 
(默认 值 是 1) ， 通 常 可 以 设置 为 5， 也 可 以 根据 水 印 和 背景 的 颜色 差别 
来 设置 这 个 值 。 对 应 于 9.3.2 节 ， 可 以 直接 使 用 的 滤 镜 字符 串 表 示 为 : 














const char* filters_ descr = "delogo=x=0:y=0:w=100:h=77:band=10"; 





(2) 增加 水 印 


相 较 于 消除 水 印 ， 增 加 水 印 是 工作 中 更 加 常用 的 一 种 视频 滤 镜 。 首 
先 需 要 一 张 logo 图 片 ， 利 用 movie 将 这 张 图 片 恋 入 ， 并 记 为 logo 参 数 ; 然 
后 对 整个 滤 镜 图 结构 ， 将 输入 视频 帧 记 为 in， 输 出 记 为 out， 利 用 overlay 
这 个 滤波 器 完成 增加 水 印 操 作 。 对 应 于 9.3.2 节 ， 可 以 直接 使 用 的 滤 镜 字 
符 串 表示 如 下 : 





const char* filters_ descr = "movie=/Users/apple/logo.png[logo]; 
[in] [logoloverlay=main_w-overlay _w-10:10[out]"; 





如 上 述 代 码 所 示 ， 首 先 利 用 movie 将 要 添加 的 水 印 读 入 进来 ， 并 记 
为 1ogo 变 量 ; 然后 和 输入 视频 帧 〈 记 为 让) 一 块 组 成 输出 视频 帧 〈 记 为 


out) 。 组 合 的 过 程 是 通过 overlay 的 参数 来 表示 的 ， 在 overlay 参 数 中 有 
以 下 几 个 内 置 变 量 ，main_w 和 main_h 为 输入 视频 帧 的 宽 和 高 ， 
overlay_w 和 overlay_h 为 谈 入 进来 的 水 印 的 宽 和 高 。overlay 的 参数 顺序 
与 意义 也 比较 简单 ， 它 的 第 一 个 参数 束 是 距离 原始 视频 帧 左边 缘 的 距 
离 ， 第 二 个 参数 就 是 距离 原始 视频 由 上 边缘 的 距离 。 所 以 上 述 代码 中 是 
将 水 印 放 到 了 原始 图 像 的 右上 角 ， 如 果 读 者 的 场景 是 放 到 左上 和 角 或 者 其 
他 位 置 ， 那 么 可 以 根据 内 置 变量 表示 出 来 。 


3. 对 比 度 、 饱 和 度 、 亮 度 调节 


下 面 要 介绍 的 是 eq 这 个 视频 滤 镜 ， 在 低 版 本 的 FFmpeg 中 是 没有 这 
个 视频 滤 镜 的 ， 比 如 ， 笔 者 验证 的 2.1.1 版 本 就 没有 这 个 效果 器 ， 但 在 
2.8.5 版 本 中 有 这 个 效果 需 。 有 具体 如 何 得 看 安装 的 FFmpeg 是 否 包含 这 个 
效果 需 ， 可 以 执行 以 下 命令 : 











ffmpeg -filters | grep ed 





(1) 对 比 度 

在 eq 这 个 视频 滤 镜 中 可 以 调节 对 比 度 ， 参 数 是 contrast， 取 值 范 围 
是 -2.0 一 2.0， 默 认 值 是 1.0。 一 般 可 将 增加 对 比 度 设置 为 1.25 或 者 1.5， 其 
有 具体 含义 在 9.1.2 节 中 已 经 讲解 过 。 

(2) 饱和 度 


在 eq 这 个 视频 滤 镜 中 可 以 调节 饱和 度 ， 参 数 是 saturation， 取 值 范围 
是 0.0 一 3.0， 默 认 值 是 1.0， 具 体 含义 可 以 参考 9.1.3 节 。 


(3) 调节 亮度 


在 eq 这 个 视频 滤 镜 中 可 以 调节 亮度 ， 参 数 是 brightness， 取 值 范围 
是 -1.0~1.0， 默 认 值 0.0， 取 值 为 正 数 ， 代 表 增 加 亮度 。 


下 面 给 出 一 个 增加 对 比 度 、 增 加 饱和 上 度 ， 并 且 提 有 亮 的 滤 镜 代码 : 








const char* filters descr = "eq=contrast=1.25:brightness=0.05:saturation=1.cC 





4. 添 加 面板 


除 基础 效果 器 的 使 用 ， 在 日 常 工作 中 还 可 能 会 经 常用 到 分 辩 率 转 
换 ， 这 时 就 需要 通过 面板 来 处 理 。 比 如 ， 有 一 个 480x480 的 视频 ， 因 为 
某 些 平台 的 限制 ， 现 在 需要 将 这 个 视频 转换 为 一 个 16 : 9 的 宽屏 视频 ， 
两 侧 填 充 黑 边 ， 如 何 实现 ? 先 来 看 滤 镜 代码 如 下 : 


const char* filters_descr = "pad=iw*16/9:iw: (ow-iw)/2:0:black"; 





上 述 代 码 会 使 用 pad 效 果 器 建立 一 个 面板 ， 并 把 输入 画面 画 到 面板 
上 。 在 这 个 效果 器 里 有 以 下 几 个 内 置 变 量 : iw 和 记分 别 代 表 input 男 面 的 
宽 和 高 ，ow 和 oh 分 别 代表 output 男 面 的 宽 和 高 。pad 的 参数 一 共有 四 
个 ， 前 两 个 参数 分 别 代表 面板 的 宽 和 高 。 在 需求 中 ， 由 于 要 做 成 比例 为 
16 : 9 的 宽屏 视频 ， 所 以 计算 出 最 终 面板 的 宽度 应 该 是 当前 宽度 乘 以 16 
除 以 9， 而 高 度 维持 不 变 。 后 面 两 个 参数 分 别 代表 从 距离 面板 的 左边 缘 
和 上 边缘 多 大 距离 处 开始 画 。 这 里 用 到 了 内 置 变量 ow， 我 们 期 望 原 始 
视频 放 在 面板 中 间 ， 所 以 距离 面板 左边 缘 的 距离 是 ow-iw 除 以 2， 而 距离 
上 边缘 的 距离 自然 是 0。 











9.4 使 用 OpenGL ES 实现 视频 滤 镜 


在 移动 平台 上 ， 大 家 关心 的 是 性 能 ， 特 别 在 图 像 或 者 视频 处 理 方 
面 ， 性 能 问题 更 是 一 个 突出 的 问题 。 那 在 移动 平台 的 图 像 处 理 方面 如 何 
提高 性 能 呢 ? 答案 是 通过 OpenGL ES。 我 们 要 充分 利用 显卡 并 行 工 作 的 
特点 ， 这 样 可 以 极 大 地 提高 图 像 或 视频 的 处 理 速度 。 


9.4.1 加 水 印 


在 第 9.3 节 中 已 介绍 过 使 用 FFmpeg 这 个 框架 中 自 带 的 视频 滤 镜 完成 
了 一 些 操作 ， 其 中 包括 了 加 水 印 的 操作 。 虽 然 不 同 的 架构 设计 需要 不 同 
的 技术 实现 ， 但 如 果 是 在 已 经 架设 过 OpenGL ES 环境 的 系统 下 ， 笔 者 还 
是 强烈 推荐 使 用 OpenGL ES 来 完成 添加 水 印 的 操作 ， 因 为 这 样 会 有 更 快 
更 低 的 CPU 消耗 。 本 节 来 看 如 何 使 用 OpenGL ES 完成 添加 
水 印 的 操作 。 


水 印 的 源 一 般 是 一 张 PNG 的 图 片 ， 所 以 震 要 为 工程 引入 一 个 可 以 解 
码 PNG 的 库 (当然 也 可 以 让 各 个 客户 端 各 自 实 现 解 码 ， 但 是 这 不 太 符 合 
跨 平 台 系 统 的 设计 规则 〉。 由 于 这 个 库 需 要 同时 运行 在 Android 平 台 和 
iOS 平 台 上 ， 所 以 要 求 这 个 库 是 C 或 者 C++ 语 言 实现 的 。 最 终 ， 我 们 选择 
libpng 库 ，libpng 库 的 解码 的 输出 一 般 是 RGBA 格 式 的 byte 类 型 的 数组 。 
接 下 来 将 这 个 数组 上 传 到 显卡 中 ， 使 其 成 为 一 个 纹理 对 象 ， 最 终 将 这 个 
0 得 到 一 个 最 终 的 带 水 印 的 视 
少 人 人。 


1. 引 入 libpng 库 


读者 可 以 从 SourceForge 上 下 载 最 新 的 libpng 的 源码 ， 也 可 以 从 本 书 
的 代码 目录 中 找到 笔者 使 用 的 libpng 版 本 的 源码 。 笔 者 没有 使 用 编译 静 
态 库 的 形式 来 引用 libpng 库 ， 因 为 这 样 需要 编译 多 个 平台 ， 而 libpng 库 里 
的 源码 文件 并 不 多 ， 直 接 以 源码 的 形式 引用 也 并 不 复杂 ， 上 所 以 对 libpng 
ead 就 采用 源码 的 方式 。 拿 到 源码 之 后 ， 以 单独 的 一 个 目录 放 入 工 
旦 日 录 中 。 


(1) libpng 的 API 介 绍 
首先 来 看 libpng 库 中 的 数据 结构 。 
:png_structp 变 量 : 在 libpng 初 始 化 的 时 候 创 建 ， 由 libpng 库 内 部 使 
用 ， 代 表 ]libpng 的 调用 上 下 文 ， 开 发 者 不 应 该 对 这 个 变量 进行 访问 。 调 
用 libpng 的 API 时 ， 需 要 把 这 个 参数 作为 第 一 个 参数 传 入 。 


.png_infop 变 量 : 初始 化 完成 libpng 之 后 ， 可 以 从 libpng 中 获得 该 类 
型 变量 指针 。 这 个 变量 保存 了 png 图 片 数据 的 信息 ， 开 发 者 可 以 修改 和 




















查阅 该 变量 。 


接 下 来 初始 化 libpng 这 个 库 ， 代 码 如 下 : 





png_structp png_ptr = png_create_read struct(PNG_LIBPNG_ VER_ STRING, 
NULL, NULL, NULL); 





初始 化 libpng 的 时 候 ， 用 户 可 以 指定 自 定义 错误 处 理 函数 ， 如 果 无 
须 指 定 ， 则 传 入 NULL 即 可 。png_create_read_struct 函 数 返 回 一 个 
png_structp 变 量 ， 前 面 已 经 提 到 过 ， 该 变量 不 应 该 被 用 户 访问 ， 应 该 在 
以 后 调用 libpng 的 函数 时 传递 给 libpng 库 。 


然后 调用 获得 图 片 信息 的 接口 : 





png_infop info_ptr = png_create_ info_struct(png_ptr); 





得 到 图 片 信息 的 结构 体 后 ， 接 下 来 残 设 置 libpng 的 数据 源 了 。 使 用 
自 定 义 回 调 函 数 设置 libpng 数 据 源 ， 代 码 如 下 : 





ReadDataHandle png_data handle = (ReadDataHandle) { 
{png_data, png_data size}, 0 


}; 
png_set_read fn(png_ptr, &png_data handle, read_png_data callback); 








实际 上 ， 我 们 把 客户 端 代码 读 取 出 来 的 PNG 图 片 的 所 有 数据 和 数据 
的 大 小 封装 到 结构 体 中 ， 然 后 直接 当做 函数 png_set_read_ f 名 的 第 二 个 参 
数 来 传递 给 回调 函数 read_png_data_callback。 对 于 这 个 回调 函数 的 完 
义 ， 有 具体 如 下 : 








static void read_png_data_callback(png_structp png_ptr， 
png_byte* raw data, png_size t read length) { 
ReadDataHandle* handle = png_get io ptr(png_ptr); 
const png_byte* png_src = handle->data.data + handle->offset; 
memcpy(raw_data, png_src, read length); 
handle->offset += read_length,; 





上 述 代码 首先 利用 函数 png_get_io_ptr 取 出 设置 在 数据 源 函 数 中 的 指 
针 ， 然 后 将 read_length 里 面 的 数据 按照 要 求 的 数量 拷贝 到 raw_data 这 块 


内 存 区 域 中 。 


做 好 设置 数据 源 工作 之 后 ， 接 下 来 束 到 了 PNG 图 像 处 理 部 分 ， 步 又 
oa 


1) 读 取 输入 png 数 据 的 图 片 信息 ， 代 码 如 下 : 





png_read info(png_ptr, info_ptr); 





该 函数 会 把 输入 png 数 据 的 信息 读 入 info_ptr 数 据 结构 中 。 
2) 查询 图 像 信息 ， 代 码 如 下 : 





png_get_IHDR(png_ptr，info_ptr，&width，&height，&bit_depth， 
&color_type, NULL, NULL, NULL); 





前 面 提 到 png_read_info 会 把 输入 png 数 据 的 信息 读 入 info_ptr 数 据 结 
构 中 ， 接 下 来 要 调用 API 查 询 该 信息 。 


3) 设置 png 输 出 参数 转换 参数 ) ， 代 码 如 下 : 





if (png_get valid(png_ptr, info_ptr, PNG_INFO_tRNS)) 
png_set_tRNS_ to alpha(png_ptr); 
if (color_type == PNG_COLOR_TYPE_GRAY && bit_ depth < 8) 
png_set_expand gray 1 2 4 to 8(png_ptr); 
if (color_type == PNG_ COLOR_TYPE_PALETTE) 
png_set_palette to_rgb(png_ptr); 
if (color_type == PNG_COLOR_TYPE_PALETTE || color_type == PNG_ COLOR_TYPE_RGE 
png_set_add_ alpha(png_ptr, OxFF, PNG_FILLER AFTER); 
if (bit_ depth < 8) 
png_set_packing(png_ptr); 
else if (bit depth == 16) 
png_set_scale 16(png_ptr);// 注意 在 高 版 本 的 库 中 应 调用 
png_set_strip_16(png_ptr); 


















































这 一 步 非 党 重要， 开发 者 可 以 通过 调用 png_set_xxxxx 函 数 指定 输出 
数据 的 格式 ， 比 如 RGB888、ARGB8888 等 输出 数据 格式 。 注 意 代码 的 
最 后 一 部 分 ， 如 果 位 深度 是 16， 在 libpng 库 提供 的 高 版 本 的 API 中 应 该 调 
用 方法 png_set_strip 16。 这 部 分 代码 执行 结束 后 ， 会 将 图 像 转换 为 
RGB888 的 数据 格式 。 当 然 ， 如 果 开 发 者 想 转 换 为 YUV 的 格式 或 者 其 他 
格式 ， 可 以 通过 给 libpng 库 设置 转换 函数 来 实现 ， 这 里 就 不 介绍 了 ， 如 








果 有 需要 ， 读 者 可 以 自己 查阅 libpng 库 的 官方 文档 来 设置 。 
4) 更 新 png 数 据 的 详细 信息 。 


通过 前 面 设置 png 数 据 的 图 片 信息 ， 肯 定 会 有 一 些 变 化 ， 下 面 需 要 
调用 函数 png_read_update_info 更 新 图 片 的 详细 信息 : 














png_read update_ info(png_ptr, info_ptr); 





5) 读 取 png 数 据 。 


首先 计算 出 每 一 行 字 节 buffer 的 大 小 ， 然 后 乘 以 局 度 得 到 整个 图 片 
的 大 小 ， 最 终 调用 读 取 函 数 将 数据 全 部 读 取 到 分 配 的 内 存 区 域 中 。 








const png_size _t row size = png_get_rowbytes(png_ptr, info_ptr); 
const int data _ length = row_ size * height; 
png_byte* raw image = malloc(data length); 
png_byte* row_ptrs[height]; 
png_uint_32 工 
for (i = 0; i < height; i++) { 
row_ptrs[i] = raw_ image + i * row size; 


} 
png_read image(png_ptr, &row_ptrs[0]); 





6) 结束 读 取 数据 。 
通过 png_read_end 结 束 读 取 png 数 据 ， 代 人 码 如 下 : 





png_read end(png_ptr, info_ptr); 





7) 释放 libpng 的 内 存 ， 代 码 如 下 : 





png_destroy_read_struct(&png_ptr, &info_ptr, NULL); 





8) 将 解码 出 来 的 数据 封装 到 结构 体 中 返回 ， 代 码 如 下 : 





return (RawImageData) { 
png_info.width, 
png_info.height, 
raw_image.size, 


get_gl color_format(png_info.color_type), 
raw_image.data}; 





至 此 ，libpng 库 的 API 调 用 就 讨论 结束 了 ， 大 家 可 以 参考 代码 仓库 中 
的 image.c 文 件 ， 接 下 来 会 将 它 集成 到 Android 和 iOS 客 户 端 。 


(2) Android 平 台 的 集成 


在 Android 平 台 和 集成 的 重点 是 如 何 书 写 Android.mk 文 件 ， 将 这 些 源码 
直接 集成 到 我 们 的 NDK 工 程 中 。Android.mk 的 代码 如 下 : 





LOCAL_PATH := $(call my-dir) 

include $(CLEAR_VARS) 

LOCAL_C_INCLUDES += $(LOCAL_PATH)/libpng 
LOCAL_EXPORT_LDLIBS := -1z 
LOCAL_SRC_FILES := \ 

./libpng/png.c \ 

./libpng/pngerror.c \ 

./libpng/pngget.c \ 

./libpng/pngmem.c \ 

./libpng/pngpread.c \ 

./libpng/pngread.c \ 

./libpng/pngrio.c 
./libpng/pngrtran 
./libpng/pngrutil. 
./libpng/pngset.c 
./libpng/pngtrans 
./libpng/pngwio.c 
./libpng/pngwrite 
./libpng/pngwtran. 
./libpng/pngwutil. 
LOCAL_MODULE := libpng 

include $(BUILD_STATIC_LIBRARY) 


\ 
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\ 
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从 以 上 代码 可 以 注意 到 ， 除 了 正常 地 将 源码 都 包含 到 整个 文件 中 之 
外 ， 还 需要 引入 libz 库 ， 这 样 书写 Android.mk 文 件 之 后 ， 就 可 以 编译 出 
Os 并 且 可 利用 第 一 步 书写 的 调用 客户 端 来 完 
解 但 操作 。 


(3) iOS 平 台 的 集成 


iOS 平 台 的 集成 操作 ， 实 际 上 只 要 把 这 个 目 录 加 到 Xcode 工程 中 就 
可 ， 但 是 有 一 个 问题 需要 处 理 ， 那 就 是 引入 libz 库 ， 需 要 我 们 在 Build 
0 Link Flags， 然 后 加 入 -lz， 这 样 才 可 以 使 整个 工 
程 编译 通 


2. 演 染 水 印 ， 完 成 绘制 


泻 染 水 印 其 实 很 简单 ， 就 是 先 将 原始 视频 男 到 一 个 FBO 上 ， 然 后 将 
水 印 图 片 画 到 相应 的 位 置 上 去 ， 此 时 这 个 FBO 就 相当 于 由 两 个 图 层 组 
成 ， 确 层 是 原始 视频 帧 画面 ， 上 层 就 是 水 印 图 片 ， 整 段 代码 结构 如 下 : 








glFramebufferTexture2D(GL_FRAMEBUFFER, GL_COLOR ATTACHMENTO, GL_TEXTURE_2D， 
outputTextureID, 0); 

// 1. 将 原始 纹理 作为 底层 绘制 

drawInputTexture( ); 

// 2 .在 合适 的 位 置 绘制 水 印 图 片 

drawOverlayTexture( ); 

glFramebufferTexture2D(GL_FRAMEBUFFER, GL_COLOR ATTACHMENTO, GL_TEXTURE_2D， 
0, 9); 



































上 述 代码 中 首先 将 outputTextureID 关 联 到 FBO 上 ， 然 后 进行 泻 染 操 
作 ， 演 染 到 FBO 上 的 内 容 就 相当 于 绘制 到 了 outputTextureID 上 ， 最 终 在 
绘制 结束 之 后 ， 将 FBO 关 联 的 纹理 ID 设 置 为 0。 在 绘制 过 程 中 ， 绘 制 原 
始 纹 理 没有 什么 需要 说 明 的 ， 但 是 ， 为 了 让 绘制 水 印 图 片 的 方法 更 通 
用 ， 这 里 要 详细 讲解 VertexShader 中 的 旋转 平移 缩放 矩阵 的 用 法 。 旋 转 
平移 缩放 和 矩阵 在 绘图 过 程 中 会 经 常用 到 ， 比 如 在 Android 平 台 的 
SurfaceView 的 目 定义 动画 中 ， 要 将 Bitmap 画 到 画布 上 。 在 OpenGL ES 
中 ， 旋 转 平移 缩放 矩阵 用 于 在 VertexShader 中 进行 物体 坐标 的 变换 。 物 
体 坐 标 是 一 个 四 维 向 量 ， 记 为 (x，y，z，w) 。 下 面 就 介绍 如 何 使 用 算 
阵 来 变换 物体 的 坐标 。 先 来 看 窍 阵 和 疝 量 相 乘 的 法 则 ， 如 式 (9-2〉 所 
示 。 
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对 于 GLSL 中 和 矩阵 和 向 量 的 相 习 ， 可 以 表示 为 : 





mat4 myMatrix; 
vec4 myVector 
vec4 transformedVector = myMatrix * myVector 


接 下 来 看 一 个 蛙 位 矩阵 的 表示 ， 如 式 (9-3) 所 示 。 


| 000 
(100 yl Osxtl#ytO#zt0#w] Otyt0+0) |y 
0 0 1 0 0z) OsxtO#ytl#z+O*w | 040+z+0| 


000 1 lw OrxtOxy+Osztl#w) 0+0+0+m (w 


= 
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由 式 《9-3)〉 可 见 ， 单 位 矩阵 实际 上 对 疝 量 是 没有 任何 意义 的 ， 但 
古 理解 单位 矩阵 绝对 是 非 第 重要 的 ， 并 且 无 论 是 平移 、 纵 放 还 是 旋转 ， 
0 
尺码 如 下 : 


float translateMartrix[4][4] = { 
了 中 » Xx 
0, 1, 0, Ty 
0, 0, 1, Tz 
0, 0, 0, 1 
} 





在 二 维 图 像 中 ， 一 般 都 仅 指 定 (x，y) 的 坐标 ， 当 仪 指 定 了 x 和 y 坐 
标的 时 候 ， 其 他 两 个 坐标 值 (z 和 w) 将 被 自动 指定 为 0Oo 和 1。 由 于 w 的 值 
默认 为 1， 可 以 看 到 上 述 平 移 窍 阵 中 的 Tx、Ty、Tz 就 是 针对 于 w 是 1， 所 
以 就 可 以 在 (x，y，z) 三 个 方 同 上 作用 位 移 变 量 (Tx，Ty，Tz) 了 。 
而 旋转 矩阵 比较 复杂 ， 这 里 只 列举 了 一 个 绕 z 轴 旋转 角度 a 的 矩阵 ， 而 绕 
z 轴 旋转 也 是 二 维 世 界 里 使 用 最 多 的 旋转 ， 如 下 所 示 : 


float rotateMartrix[4][4] = { 
cos(a), sin(a), 0, 0 
-sin(a), cos(a), 0, 0 
0, 1, 0 
0, 0, 0, 1 
} 


从 以 上 代码 可 以 看 到 绕 z 轴 旋转 就 是 z 轴 不 动 ，x 轴 和 y 轴 去 做 相应 角 
度 的 旋转 。 如 果 读 者 想 知道 绕 x 轴 和 绕 y 轴 旋转 矩阵 的 用 法 ， 可 以 参考 代 
码 仓 库 中 示例 代码 的 用 法 。 纵 放 窍 阵 就 会 简单 一 些 ， 如 下 所 示 : 


float scaleMartrix[4][4] = { 
ex, 09, 0 


0 scaleY, 6) 

0,， 9， scalez, 0 

0， 90， 90， 1 
从 上 述 矩 阵 中 可 以 看 到 ， 当 这 三 个 矩阵 都 确定 之 后 ， 剩 下 的 就 是 将 


三 个 矩阵 合并 成 为 一 个 矩阵 ， 代 码 如 下 : 


mat4 transformMatrix = TranslationMatrix * RotationMatriIx * ScaleMatrIX; 


这 里 一 定 要 注意 顺序 ， 移 执行 缩放 ， 接 着 旋转 ， 最 后 才 是 平移 《和 珑 
阵 的 天 乘 和 右 乘 得 到 的 结果 是 不 一 样 的 ) 。 只 有 这 样 ， 才 可 以 先 确定 中 
心 把 ， 然 后 再 绕 中 心 点 进行 旋转 ， 以 及 按照 中 心 点 进行 平移 。 如 果 顺 序 
搞 乱 了， 就 会 得 到 不 一 样 的 结果 ， 目 然 也 不 是 我 们 预期 的 结果 了 。 


下 面 将 这 个 窍 阵 放 入 演 染 水 印 的 VertexShader 中 ， 并 在 Shader 中 将 
乱 阵 去 乘 以 物体 坐标 ， 得 到 的 新 的 物体 坐标 就 是 我 们 期 望 的 水 印 放 置 的 
位 置 ， 以 及 达到 旋转 角度 和 缩放 的 程度 。 大 家 可 以 参考 示例 代码 中 的 利 
用 OpenGL ES 添加 水 印 效果 器 的 实例 。 





942 添加 和 目 定 义 文 字 


给 视频 添加 目 定义 文字 也 是 工作 中 利 碰 到 的 场景 ， 所 以 本 布 讨论 如 
何 添 加 自 定 义 文字 。 首 先 需 要 问 大 家 事先 交代 一 个 背景 ， 束 是 OpenGL 
ES 内 部 不 可 以 直接 进行 文字 的 绘制 ， 并 且 对 绘制 的 文字 有 可 能 还 有 字 
体 、 阴 影 等 需求 ， 所 以 我 们 使 用 Android 平 台 和 iOS 平 台 将 文字 绘制 到 一 

















个 Bitmap 上 ; 然后 将 Bitmap 传 递 给 OpenGL ES 系统 ; 最 后 由 OpenGL ES 
进行 处 理 与 演 染 。 


1 平台 绘制 需要 的 文字 


由 于 平台 相关 性 ， 我 们 分 两 部 分 来 介绍 如 何在 Android 平 台 和 iOS 平 
台 上 将 文字 制作 成 图 片 。 一 部 分 代码 由 底层 的 OpenGL ES 系统 回调 客户 
端 完成 ， 该 客户 端 会 将 文字 的 大 小 、 文 字 的 颜色 、 是 否 需 要 文字 阴影 ， 
以 及 文字 所 占 位 置 和 对 齐 方式 等 参数 传递 给 客户 端 代码 ， 客 户 端 会 按照 
要 求 将 文字 绘制 到 一 个 黑色 背景 的 图 片上 《最 终 利 用 黑色 的 alpha 通 道 为 
0 的 特性 仅 显 示 出 文字 区 域 ， 所 以 背景 使 用 黑色 ) ， 最 终 将 图 片 以 
RGBA 的 数据 格式 传递 给 OpenGL ES 系统 ，OpenGL ES 系统 则 会 将 这 个 
图 片 再 泻 染 到 视频 上 ， 从 而 得 到 我 们 想 要 绘制 的 结果 。 


根据 上 述 的 设计 ， 表 先 规定 回调 函数 的 接口 ， 代 码 如 下 : 








bool getTextPixels(int width, int height, 
int textLabelLeft, int textLabelTop, 
int textLabelwidth, int textLabelHeight, 
int textColor, int textSize, int textAlignment, char* text, 
float shadowRadius, float textShadowXoffset, 
float textShadowYOffset, int shadowColor, 
byte[] buffer); 








其 中 ， 第 一 行 的 参数 代表 这 幅 图 片 的 宽 和 噩 ; 第 二 行 和 第 三 行 的 参 
数 代表 文字 所 在 的 位 置 以 及 文字 的 蜗 和 融 ; 第 四 行 的 参数 代表 文字 颜 
色 、 大 小 、 对 齐 方 式 以 及 文字 内 容 ， 第 五 行 和 第 六 行 的 参数 代表 文字 阴 
影 的 配置 ， 第 七 行 的 参数 就 是 生成 这 幅 图 片 内 容 存 放 的 内 存 区 域 。 


(1) Android 平 台 的 实现 
首先 根据 要 求 的 宽 、 高 以 Bitmap 的 形式 制作 出 一 张 图 片 ， 代 码 如 














Bitmap textBitmap = Bitmap.createBitmap(width, height, Bitmap.Config.ARGB 88 





制作 的 Bitmap 的 背景 色 默 认为 黑色 ， 把 这 个 Bitmap 画 到 一 个 画布 
上 ， 这 样 就 得 到 了 一 个 黑色 画布 ， 然 后 就 可 以 在 这 个 画布 上 画 文 字 了 。 
对 这 个 画布 进行 操作 ， 就 相当 于 对 这 幅 图 片 做 了 相同 的 操作 。 代 码 如 
下 : 





Canvas localCanvas = new Canvas(textBitmap); 

















要 想 在 画布 上 男 文字 ， 首 先 得 有 一 文 画 笔 ， 并 且 要 根据 需求 设置 男 
笔 的 参数 ， 代 码 如 下 : 





Paint localPaint = new Paint(); 
localPaint.setColor(Color.argb(255, Color.red(textColor), 
Color .green(textCcolor), Color.blue(textColor))); 
localPaint.setShadowLayer (shadowRadius, textShadowXoffset, textShadowYoffset 
Color.argb(255, Color.red(shadowColor), 
Color.green(shadowColor), Color.blue(shadowColor))); 
JocalpPaint.setTextSize(textSize); 
lJocalpPaint.setAntiAlias(true); 
JocalpPaint.setTextAlign(Paint.Align.CENTER); 





从 上 述 代码 中 可 以 看 到 ， 分 别 设置 了 画笔 的 颜色 、 阴 影 、 文 字 大 
小 、 抗 锯齿 ， 以 及 文字 的 对 齐 方式 。 画 笔 设置 完 之 后 ， 在 规定 绘制 的 区 
域 中 绘制 文字 ， 代 码 如 下 : 








Rect targetRect = new Rect(textLabelLeft, textLabelTop, 
textLabelLeft + textLabelwidth, textLabelTop + textLabelHeight); 
FontMetricsInt fontMetrics = localPaint.getFontMetricsInt(); 
int baseline = (targetRect.bottom + targetRect ,top - 
fontMetrics.bottom - fontMetrics.top) / 2; 
localCanvas.drawText(text, targetRect.centerX(), baseline, localPaint); 





其 中 ，targetRect 是 文字 要 绘制 的 矩形 区 域 ，baseline 的 计算 是 为 了 
将 文字 绘制 在 这 个 矩形 区 域 坚 直方 向 的 正中 间 。 最 后 将 这 个 Bitmap 的 内 
容 复 制 到 一 个 内 存 区 域 中 ， 再 返回 给 调用 端 ， 代 人 码 如 下 : 














int capacity = width * height * 4; 


ByteBuffer dst = ByteBuffer.allocate(capacity); 
textBitmap.copyPixelsToBuffer(dst); 
dst.position(0); 

dst.get(buffer, 0, capacity); 





(2) iOS 平 台 的 实现 


在 iOS 平 台 上 绘制 文字 以 及 图 形 时 ， 使 用 CoreGraphics 中 的 
CGContext。 首 先 通过 宽 、 高 以 及 表示 格式 创建 出 一 个 Bitmap， 代 码 如 
下 : 





CGColorSpaceRef colorSpace = CGColorSpaceCreateDeviceRGB( ) ， 

CGContextRef BitmapContext = CGBitmapContextCreate(buffer, width, height, 8, 
width * 4, colorSpace, kCGImageAlphaNoneSkipLast); 

CGColorSpaceRelease(colorSpace); 





然后 设置 当前 图 片 的 缩放 和 位 移 和 矩阵， 代码 如 下 : 





CGContextTranslateCTM(BitmapContext, 0.0, height); 
CGContextScaleCTM(BitmapContext, 1.0, -1.0); 





在 进行 文字 的 绘制 之 前 ， 要 先 将 这 个 BitmapContext 作 为 绘制 的 对 
象 ， 类 似 于 OpenGL ES 中 的 绑 定 纹理 ID， 这 里 就 绑 定 当前 绘制 的 
Bitmap， 在 绘制 结束 之 后 解除 绑 定 操作 ， 并 将 BitmapContext 释 放 挥 。 代 
码 如 下 : 








UIGraphicsPushContext(BitmapContext); 
drawTextPixels(param, context); 
UIGraphicsPopContext(); 
CGContextRelease(BitmapContext); 





最 核心 的 drawTextPixels 束 是 实际 的 绘制 文字 了 ， 就 是 在 指定 的 区 
域 按照 指定 的 参数 绘制 文字 ， 人 代码 如 下 : 





NSTextAlignment alignment ， 
if (textAlignment == -1) { 
alignment = NSTextAlignmentLeft; 
} else if (textAlignment == 0) { 
alignment = NSTextAlignmentCenter; 
} else { 
alignment = NSTextAlignmentRight; 
} 


NSMutableParagraphSstyle *paragraphStyle = [[NSParagraphstyle 
defaultParagraphStyJe] mutableCopy]; 

paragraphStyle.alignment = alignment,; 

NSDictionary *attributes = @{NSFontAttributeName: [UIFont 
systemFontOfSize:textSize],NSForegroundColorAttributeName: 
UIColorFromRGB(textColor),NSParagraphstyleAttributeName: 
paragraphstyle}; 

CGRect rect = CGRectMake(textLabelLeft, textLabelTop, textLabelwidth, 
textLabelHeight ) ， 

[text drawInRect:rect withAttributes:attributes] 








至 此 ， 将 文字 按照 指定 的 大 小 、 颜 色 以 及 区 域 绘 制 到 了 提供 的 内 存 
区 域 上 。 注 意 ， 生 成 的 图 片 除了 文字 外 ， 其 他 的 区 域 都 是 黑色 的 ， 理 解 
这 一 点 对 于 第 二 步 “将 这 个 图 片 进行 泻 染 ” 有 很 重要 的 意义 。 


2. 泻 染 文字 ， 完 成 绘制 


对 于 前 面 生成 的 文字 图 片 ， 除 了 文字 区 域外 ， 其 他 的 区 域 都 是 黑色 
的 ， 并 且 黑 色 区 域 中 每 一 个 像素 的 RGBA 通 道中 A 通道 的 数值 都 为 0。 但 
是 ， 对 于 文字 区 域 的 像素 ，A 通 道 都 是 有 自己 的 透明 度 属 性 的 ， 所 以 我 
们 依赖 于 这 一 点 将 文字 图 片 和 视频 图 片 进行 混合 ， 混 合 代码 如 下 : 














vec4 image = texture2D(imageTexture, v_texcoord); 
vec4 textImage = texture2D(textTexture, v_texcoord); 
float r = textImage.r + (1.0 - textImage.a)*image.r,; 
float g = textIimage.g + (1.0 - textImage.a)*image.g; 
float b = textImage.b + (1.0 - textImage.a)*image.b,; 
vec4 finalColor = vec4(r, g, b, 1.0); 





从 上 述 代 码 中 可 以 看 到 ， 对 于 文字 图 片 的 黑色 区 域 ， 奉 alpha 通 道 为 
0， 则 使 用 的 全 是 原始 视频 帧 的 色 值 ， 对 于 文字 区 域 ， 奉 alpha 通 道 不 再 
7 则 会 将 两 个 颜色 进行 混合 ， 得 到 最 新 的 色 值 ， 并 将 得 到 的 图 片 输 


在 文字 的 泻 染 部 分 常 使 用 的 是 淡 入 淡出 ， 即 当 文 字 出 现 的 时 候 以 淡 
入 的 效果 进入 ， 然 后 维持 一 段 时 间 ， 等 文字 要 消失 之 前 要 淡出 的 效果 消 
失 。 要 实现 相应 的 效果 ， 需 要 引入 一 个 progress 的 计算 ， 并 且 将 progress 
应 用 到 上 述 公 式 中 。 首 先 ， 定 义 以 下 几 个 变量 ， 使 用 sequenceIn 表 示 文 
字 效 果 器 开始 作用 时 间 ; 使 用 sequenceOut 表 示 结 束 作 用 时 间 ; 使 用 
fadeInEndTime 表 示 出 现 过 程 中 的 淡 入 效果 完成 时 间 点 ;使 用 
fadeOutStartTime 表 示 退 出 过 程 中 淡出 效果 开始 时 间 点 。 所 以 最 终 
progress 的 计算 公式 如 下 : 




















float progress = 1.0; 

int64 t currentTime = pos * 1000; // 换算 为 毫秒 

if(currentTime <= fadeInEndTime){ 
progress = (currentTime - sequenceIn) / (fadeInEndTime - sequenceIn); 

} else if(currentTime >= fadeOutStartTime){ 
float p = (currentTime - fadeOutStartTime) / (Sequenceout - fadeOutStart 
progress = 1.0 - p; 





以 上 代码 中 表示 的 意思 是 可 以 把 时 间 轴 分 为 三 部 分 : 第 一 部 分 是 
fadeImmn 部 分 ， 即 代码 中 的 第 一 个 分 文 ，progress 的 值 会 从 0.0 变 化 到 1.0; 
第 二 部 分 是 稳定 显示 部 分 ，progress 的 默认 值 为 1.0; 第 三 部 分 是 fadeOut 
部 分 ， 即 代码 中 的 第 二 个 条 件 分 文部 分 ，progress 的 值 会 从 1.0 变 化 到 
0.0。 














如 何在 两 个 混合 图 片 中 使 用 progress 呢 ?代码 如 下 : 





vec4 image = texture2D(imageTexture, v_texcoord); 

vec4 textImage = texture2D(textTexture, v_texcoord); 

float r = textIimage.r * progress + (1.0 - textImage.a * progress)*image.r,; 
float g = textIimage.g * progress + (1.0 - textImage,a * progress)*image.g; 
float b = textIimage.b * progress + (1.0 - textImage.a * progress)*image.b,; 
vec4 finalColor = vec4(r, g, b, 1.0); 








从 以 上 代码 中 可 以 看 出 ， 当 progress 的 值 为 0 的 时 候 ， 最 终 的 色 值 全 
部 都 是 原始 图 片 帧 的 色 值 ， 随 着 向 1.0 变 化 ， 文 字 图 片 有 文字 的 部 分 会 
慢 慢 显示 出 来 ， 黑色 区 域 永远 不 会 显示 ， 当 progress 的 值 达 到 1.0 的 时 候 
就 是 最 开始 的 公式 ， 即 将 两 幅 图 片 按 照 文字 图 片 的 alpha 值 进行 混合 ， 从 
而 作为 最 终 OpenGL ES 的 泻 染 输出 。 





9.4.3” 美 颜 效果 器 


对 于 摄像 头 采集 出 的 图 像 ， 盛 其 是 带 有 人 脸 的 图 像 ， 古 必须 要 做 美 
颜 处 理 的 ， 而 这 才 是 本 章 中 的 重点 ， 所 以 本 节 重 点 介绍 基于 OpenGL ES 
美 闫 算法 的 实现 。 美 颜 算法 的 实现 有 很 多 种 ， 一 般 先 通过 磨 皮 算法 将 皮 
肤 的 一 些 纹理 痘 疗 、 黑 斑 等 ) 给 磨 掉 ， 然 后 通过 色相 、 提 亮 等 效果 器 
美化 肤色 。 整 个 构成 中 ， 磨 诡 算 法 是 最 重要 的 一 环 ， 双 边 滤波 算法 是 较 
为 常用 且 效 果 也 比较 好 的 一 种 磨 皮 做 法 。9.2.4 节 已 经 讲解 过 双边 滤波 算 
法 的 原理 ， 本 节 会 给 出 如 何在 OpenGL ES 的 环境 中 实现 双边 滤波 算法 ， 
以 达到 美 颜 的 效果 。 


首先 来 看 VertexShader， 代 码 如 下 : 




















attribute vec4 position,; 
attribute vec4 inputTextureCoordinate; 
uniform float texelwidthoffset; 
uniform float texelHeightoffset; 
const int GAUSSIAN_SAMPLES = 5; 
varying vec4 blurCoordinates[GAUSSIAN_SAMPLES]; 
vec4 handleSstepoffset(vec2 stepoffset) 
‘ 
return vec4(inputTextureCoordinate.xy + stepoffset, 
inputTextureCoordinate.xy - stepoffset); 


} 
void main() 
gl_Position = position; 


vec2 SingleStepoffset = vec2(texelwidthoffset, texelHeightoffset); 
blurCoordinates[0] = inputTextureCoordinate; 


blurCoordinates[1] = handleSstepoffset(singleSstepoffset); 

blurCoordinates[2] = handleStepoffset(SingleStepOoffset * 2.0); 
blurCoordinates[3] = handleStepoffset(SingleStepOoffset * 3.0); 
blurCoordinates[4] = handleSstepoffset(singleSstepoffset * 4.0); 





上 述 代码 残 是 找 出 当前 像素 点 周围 的 像素 点 的 坐标 ， 而 最 终 输 出 的 
blurCoordinates 数 组 虽然 仅 有 5 个 元 厅 ， 但 是 代表 的 是 当前 像 系 点 和 周围 
的 8 个 像素 点 ， 其 中 第 1 个 元 素 为 要 计算 的 当前 像素 把， 后面 4 个 元 系 中 
每 个 元 系 实 际 上 包含 的 是 2 个 像 系 点 ， 分 别 是 正方 回 和 反方 向 的 像素 
尽 ， 所 以 共有 8 个 像 系 点 。 它 们 会 作为 当前 像 系 点 的 参考 像素 点 ， 而 计 
0 
Hh: 














texelwidthoffset = 1.0 / width; 
texelHeightoffset = 1.0 / height,; 





当然 ， 如 果 想 扩大 参考 像素 点 的 范围 ， 可 以 增 大 这 两 个 步 长 值 ， 最 
终 VertexShader 的 输出 结果 就 是 blurCoordinates 这 个 向 量 数组 ， 这 个 向 量 
数组 将 会 传递 到 FragmentShader 中 。 接 下 来 的 FragmentShader 代 码 比 较 
复杂 ， 所 以 分 开讲 解 。 首 先 来 看 由 客户 端 代码 传递 过 来 的 uniform 的 值 
和 VertexShader 传 递 过 来 的 像素 坐标 点 数据 : 





uniform sampler2D inputImageTexture,; 

const Jlowp int GAUSSIAN_SAMPLES = 5; 

varying highp vec4 blurCoordinates[GAUSSIAN SAMPLES]; 
uniform mediump float distanceNormalizationFactor; 
Jowp vec4 sum; 

lowp float gaussianweightTotal; 





如 上 述 代 码 所 示 ，distanceNormalizationFactor 的 值 是 客户 端 传递 进 
来 的 ， 代 表 距 离 归 一 化 的 因子 ， 默 认 值 是 4.0， 取 值 范 围 是 [1.0，8.0]。 
首先 这 个 值 用 来 确定 当前 参考 像素 点 是 个 是 边缘 〈edge) 的 参数 ， 然 后 
根据 是 否 是 边缘 来 确定 作为 一 个 有 效 的 参考 点 的 权重 值 。 最 后 两 个 变量 
sum 和 gaussianWeightTotal 是 用 来 计算 像素 值 相 加 总 和 和 权重 总 和 的 。 接 
下 来 进入 main 函 数 中 ， 先 把 当前 像素 点 的 像素 值 取 出 来 ， 代 码 如 下 : 











Jowp vec4 centralCcolor 
centralColor = texture2D(inputImageTexture, blurCoordinates[0].xy); 














由 于 双边 滤波 是 基于 距离 (高 斯 分 布 ) 与 像素 值 差 距 双 维度 考虑 权 
重 的 算法 ， 所 以 每 一 个 领域 像 系 点 的 计算 都 要 考虑 这 两 个 维度 的 因素 。 
高 斯 权重 的 分 布 如 下 : 





0.05,0.09,0.12,0.15,0.18,0.15,0.12,0.09,0.05 








所 有 高 斯 权重 加 起 来 的 总 值 为 1.0， 接 下 来 通过 中 心 像素 点 的 权重 
计算 当前 像 妹 点 的 值 ， 并 加 到 总 像 妹 值 中 去 ， 同 时 也 要 把 权重 值 加 到 总 
的 权重 值 中 去 ， 代 码 如 下 : 





lowp float gaussianweightTotal; 
Jowp vec4 sum; 
gaussianweightTotal = 0.18; 


Sum = centralColor * 0.18; 











现在 ， 按 照 高 斯 分 布 将 剩余 的 四 组 领域 像素 点 计算 出 来 ， 先 来 看 最 
相近 的 一 组 ， 代 码 如 下 : 





vec4 sampleColor = texture2D(inputImageTexture, blurCoordinates[1].xy); 

float distanceFromCentralColor = min(distance(centralColor, sampleColor) * 
distanceNormalizationFactor, 1.0); 

float gaussianweight = 0.15 * (1.0 - distanceFromCentralColor); 

gaussianweightTotal += gaussianweight; 

Sum += sampleColor * gaussianweight,; 

sampleColor = texture2D(inputImageTexture, blurCoordinates[1].zw); 

distanceFromCentralColor = min(distance(centralColor, sampleColor) * 
distanceNormalizationFactor, 1.0); 

gaussianweight = 0.15 * (1.0 - distanceFromCentralcColor); 

gaussianweightTotal += gaussianweight; 

Sum += sampleColor * gaussianweight,; 





在 这 段 代 码 中 ，blurCoordinates 的 前 两 个 x 和 y 代 表 正 向 的 一 个 像素 
点 ， 后 两 个 z 和 w 代 表 反 问 的 一 个 像素 点 。 接 着 利用 GLSL 的 内 骸 疯 数 
distance 计 算出 当前 像素 点 和 中 心 像素 点 的 像素 产值 ， 再 将 差 值 乘 以 距 
离 归 一 化 因子 ， 并 与 1.0 比 较 ， 取 较 小 的 值 ， 得 到 的 这 个 值 束 代 表 当 前 
像素 点 与 中 心 像 素 点 的 颜色 差距 。 值 越 小 ， 代 表 差 距 越 小 ， 那 么 可 以 去 
做 模糊 处 理 。 假 设 这 个 值 是 1.0， 则 代表 不 拿 这 个 像素 值 参与 中 心 像素 
点 的 计算 ， 利 用 高 斯 权重 值 乘 以 1.0 减 去 这 个 值 ， 得 到 距离 与 像素 值 两 
个 维度 考虑 的 权重 值 。 最 后 计算 完毕 剩余 的 三 组 值 ， 得 到 最 终 像素 值 和 
将 像素 值 总 和 除 以 权重 值 总 和 得 到 最 终 这 个 像素 点 的 像素 

， 代 但 如 下 : 




















gl_FragCcolor = Sum / gaussianweightTotal,; 








处 理 完 所 有 像素 点 后 ， 就 得 到 了 处 理 后 的 图 像 ， 这 个 Program 只 是 
做 了 一 个 横 轴 方向 的 工作 ， 然 后 拿 着 这 个 Program 的 输出 ， 再 利用 这 个 
Program 做 一 个 纵 轴 方 回 的 工作 ， 等 两 志 都 处 理 完毕 之 后 ， 这 幅 图 片 的 
磨 皮 工作 就 做 好 了 。 然 后 加 上 提 亮 、 增 加 对 比 度 、 调 整 饱和 度 等 细节 就 
可 达到 一 个 整体 美 颜 的 效果 。 


9.4.4” 动 图 贴纸 效果 器 


对 于 一 个 成 熟 的 录制 视频 软件 来 讲 ， 除 了 美 颜 处 理 外 ， 还 需要 给 视 
频 增加 一 些 有 趣 的 功能 ， 最 常见 的 就 是 卖 靖 、 要 酪 的 动态 贴纸 。 本 节 讨 
论 如 何 实现 动 图 贴纸 效果 器 。 


动 图 贴纸 效果 器 也 有 很 多 种 实现 方法 ， 其 中 一 种 实现 方法 是 使 用 gif 
格式 的 图 片 来 做 动 图 。 这 种 实现 方法 的 优点 是 图 片 的 压缩 比 大 ; 缺点 是 
gift 格式 的 岁 片 由 于 目 身 压缩 算法 的 问题 ， 在 边缘 部 分 会 有 和 白 边 ， 从 而 寻 
致 不 好 的 用 户 体 验 。 男 外 一 种 实现 方法 就 是 使 用 png 序 列 图 来 做 动 图 。 
里 然 这 种 实现 需要 的 图 片 容量 比较 大 ， 但 可 以 使 用 压缩 工具 在 保证 同等 
质量 的 前 提 下 来 提高 压缩 比 ， 其 优点 是 最 终 绘制 出 来 的 动 图 效果 非常 
好 。 所 以 本 书 就 是 以 png 序 列 图 的 形式 来 实现 动 图 贴纸 效果 融 。 


既然 是 png 序 列 图 ， 那 么 每 一 帧 图 片 都 是 一 张 png 图 片 ， 而 将 一 张 
png 图 片 如 何 进 行 解码 并 且 泻 染 到 视频 上 ， 在 9.4.1 市 已 经 详细 讲解 过 ， 
而 应 用 在 动 图 贴纸 上 其 实 丈 是 从 单个 泻 染 到 多 个 泻 染 的 过 程 ， 这 可 能 没 
有 什么 技术 含量 ， 但 是 要 想 达 到 一 个 比较 流畅 以 及 快速 的 效果 ， 可 能 不 
ee 所 以 本 节 会 着 重 从 如 何 优化 整体 体验 的 方面 进行 讲 
笃 。 


但 是 ，png 序 列 图 的 泻 染 也 不 是 来 一 帧 视频 帧 就 绘制 一 张 png 图 片 ， 
而 是 依据 不 同 动 图 贴纸 的 配置 信息 来 安排 的 ， 动 图 贴纸 也 有 自己 的 宽 、 
高 、 印 s 等 原始 信息 的 配置 。 如 之 前 所 说 的 一 样 ， 在 配置 文件 中 应 该 描 
述 这 组 png 序 列 图 的 宽 和 高 ， 因 为 一 组 序列 图 中 的 宽 和 高 都 是 一 致 的 ， 
所 以 就 有 了 前 两 个 参数 width 和 height。 如 果 知 道 这 组 png 序 列 图 的 名 称 
(比如 Say Hi)〉 和 png 序 列 图 的 个 数 〈( 比 如 6)〉 ， 那 么 png 序 列 图 的 名 称 
依次 是 Say Hi0，Say Hil，...，Say Hi5， 所 以 就 有 了 中 间 的 两 个 参数 
imageName 和 imageCnt。 接 下 来 就 是 印 s 的 信息 ， 即 每 张 png 图 片 持续 的 
时 间 以 imageIntervalInSec 来 表示 〈 比 如 0.125 就 代表 以 125ms 作 为 时 间 的 
间 隅 ) ， 最 后 一 个 参数 就 是 这 组 序列 图 的 持续 时 间 ， 即 序列 图 在 视频 上 
总 共 呈 现 的 时 间 ， 使 用 durationInSec 表 示 。 一 个 整体 的 配置 文件 (JSON 
格式 ) 如 下 : 























"width": 240, 
"height": 240, 


"durationInSec": 5, 
"imageName": "Say Hi", 
"imageCount": 6, 
"imageIntervalInSec": 0.125 


} 





动画 设计 人 员 可 以 使 用 AE 设 计 好 动画 之 后 ， 导 出 为 png 序 列 图 ， 然 
后 在 使 用 压缩 工具 (tinypng: https:/tinypng.com/) 压缩 之 后 ， 再 上 传 到 
服务 右上。 在 上 传 过 程 中 可 以 填写 一 些 信 息 ， 上 传 之 后 ， 服 务 器 端 会 将 
这 些 信息 组 装 成 为 JSON 信 息 并 写 入 config.json 文 件 中 ， 并 和 png 序 列 图 
打包 到 一 起 ， 最 终 压缩 成 为 一 个 压缩 包 。 客 户 端 使 用 时 先 下载 这 个 压缩 
包 ， 然 后 进行 解压 缩 ， 使 其 成 为 一 个 目录 之 后 ， 找 到 config.json 进 行 解 
析 ， 就 可 以 得 到 相应 的 原始 信息 。 对 于 图 片 的 完整 路 径 ， 就 是 直接 按照 
当前 目录 加 上 imageName 和 当前 的 png 序 列 图 的 下 标 以 及 png 的 后 缀 名 ， 
将 相应 的 图 片上 传 到 显卡 上 ， 最 终 演 染 到 视频 
从 Lo 


说 到 优化 体验 ， 无 非 就 是 提升 整体 性 能 。 在 当前 场景 下 ， 提 升 性 能 
的 方法 就 是 缓存 ， 即 把 解码 之 后 上 传 到 显存 中 所 形成 的 纹理 对 象 缓存 起 
来 ， 当 下 一 次 使 用 的 时 候 ， 先 判断 是 需要 解码 上 传 ， 还 是 可 以 直接 从 组 
存 池 中 取出 来 使 用 。 所 以 缓存 的 构建 束 是 本 市 的 重点 ， 下 面 详细 介绍 如 
何 搭建 一 个 纹理 缓存 系统 。 


首先 封装 出 一 个 纹理 对 象 的 类 来 表示 一 个 纹理 ， 其 中 应 该 包括 这 个 
纹理 的 宽 、 高 及 纹理 ID， 以 及 当前 对 象 的 引用 计数 器 。 引 用 计数 器 大 于 
0， 代 表 当 前 纹理 对 象 正在 使 用 ， 不 应 该 被 外 界 看 到 并 使 用 ， 引 用 计数 
器 等 0， 代表 当前 对 象 处 于 可 用 状态 ， 可 以 交 给 外 界 使 用 。 代 码 如 


























class GPUTexture { 
private: 

int width,; 

int height ， 

GLuint texId; 

int referenceCount,; 

GLuint createTexture(GLsizei width, GLsizei height); 
public: 

GPUTexture( ); 

~GPUTexture( ); 

int getwidth()f{ 

return width,; 


}; 
int getHeight(){ 
return height; 


}; 


GLuint getTexId(){ 
return texId; 


void init(int width, int height); 
void dealloc(); 
void lock(); 
void unLock(); 
void clearAllLocks(); 
}; 





从 以 上 代码 中 可 以 看 到 ， 提 供给 客户 端 代码 的 方法 如 下 : 初始 化 方 

法 ， 用 于 创建 出 纹理 对 象 ， 锁 定 与 解锁 方法 ， 用 于 增加 或 者 减少 引用 计 

用 于 释放 显卡 中 的 纹理 对 象 。 由 于 篇 幅 的 关系 ， 就 不 
VIN。 


下 面 构造 缓存 系统 。 首 和 完 ， 以 单 例 模 式 来 构建 缓存 这 个 类 ， 因 为 它 
在 整个 系统 中 只 有 一 份 ， 代 码 如 下 : 








class GPUTextureCache { 
private: 
GPUTextureCache( ); 
static GPUTextureCache* instance,; 
public: 
static GPUTextureCache* GetInstance(); 
virtual ~GPUTextureCache(); 


}; 





然后 应 该 有 一 个 map 类 型 的 属性 ， 用 于 盛 放 分 配 出 来 的 所 有 
GPUTexture 对 象 。 既 然 是 map 类 型 的 属性 ， 束 必须 有 一 个 Key 的 分 配 规 
则 ， 这 个 Key 能 唯一 地 标识 纹理 对 象 。 前 面 在 介绍 纹理 的 章节 中 讲 到 
过 ， 宽 、 高 和 表示 格式 可 以 唯一 地 标识 一 个 纹理 对 象 ， 而 在 我 们 的 系统 
中 ， 表 示 格 式 使 用 的 是 默认 的 RGBA 格 式 ， 所 以 仅 使 用 需 和 高 就 可 以 标 
识 纹 理 对 象 ， 生 成 规则 如 下 : 











string GPUTextureCache: :getQueueKey(int width, int height) { 
string queueKey = "tex_"， 
char widthBuffer[8]; 
sprintf(widthBuffer, "%d", width); 
queueKey.append(string(widthBuffer)); 
queueKey .append("_"); 
char heightBuffer[8]; 
sprintf(heightBuffer, "%d", height); 
queueKey.append(string(heightBuffer)); 
return queueKey; 


二 一 


生成 了 Key 之 后 ， 那 map 的 Value 应 该 是 什么 类 型 的 ? 应 该 是 一 个 链 
表 的 形式 。 我 们 可 以 思考 png 序 列 图 这 个 场景 ， 使 用 第 一 张 图 片 占 用 一 
个 纹理 对 象 之 后 ， 当 遇 到 后 续 的 图 片 还 需要 同样 Key 的 纹理 对 象 时 ， 恕 
需要 一 个 链表 来 存放 这 个 Key 所 代表 的 所 有 纹理 对 象 ， 所 以 根据 Key 和 
Value 吏 可 构造 出 这 个 map 对 象 ， 如 下 : 








map<string, list<GPUTexture*> > textureQueueCache 








接 下 来 是 提供 接口 方法 ， 用 来 从 缓存 系统 中 获取 对 应 的 纹理 对 象 与 
将 使 用 过 后 的 纹理 对 象 返还 给 缓存 系统 。 驳 来 看 获取 纹理 对 象 ， 代 码 如 
下 : 








GPUTexture* GPUTextureCache::fetchTexture(int width, int height) { 
GPUTexture* texture = NULL; 
string queueKey = getQueueKey(width, height); 
map<string, list<GPUTexture*> >::iterator itor; 
itor = textureQueueCache.find(queuekey); 
If (itor != textureQueueCache.end()) { 
If ((itor->second).size() > 0) { 
texture = (itor->second).front(); 
(itor->second).pop_front(); 
} else { 
texture = new GPUTexture(); 
texture->init(width, height); 


} 

} else { 
list<GPUTexture*> textureQueue; 
texture = new GPUTexture(); 
texture->init(width, height); 
textureQueueCache[queuekKey] = textureQueue; 


} 
return texture; 








上 述 代 码 首 先 根据 客户 问 传 递 过 来 的 宽 和 高 得 到 唯一 标识 的 Key， 
然后 拿 这 个 值 去 map 中 寻找 链表 。 如 果 找 不 到 ， 则 代表 这 个 Key 类 型 的 
纹理 之 前 从 未 创建 过 ， 所 以 要 创建 一 个 链表 ， 并 以 这 个 值 为 Key 放 入 
Map 中 ， 同 时 创建 一 个 GPUTexture 对 象 并 返回 。 注 意 这 里 不 要 放 到 这 个 
链表 中 ， 因 为 如 条 放 入 到 链表 中 ， 这 个 纹理 对 象 束 有 可 能 会 被 外 界 所 使 
用 ; 如 果 按 照 这 个 Key 找 到 对 应 的 链表 ， 就 可 以 判断 这 个 链表 中 是 否 有 
可 用 的 元 素 ， 如 果 有 则 弹出 ， 如 果 没 有 则 创建 并 返回 给 客户 端 。 接 下 来 
看 如 何 将 不 再 使 用 的 纹理 对 象 返 还 到 缓存 系统 中 ， 代 码 如 下 : 














void GPUTextureCache: :returnTextureToCache(GPUTexture* texture) { 


string queuekey = getQueueKey(texture->getwidth()， texture- 
>getHeight()); 
map<string, list<GPUTexture*> >::iterator itor; 
itor = textureQueueCache.find(queuekey); 
If (itor != textureQueueCache.end()) { 
(itor->second).push_back(texture); 


} 





如 上 述 代 码 所 示 ， 知 客户 问 调 用 这 个 方法 ， 则 代表 GPUTexture 对 象 
对 于 客户 端 来 说 无 需 再 使 用 ， 所 以 在 实现 中 也 是 根据 这 个 纹理 对 象 的 宽 
和 高 构造 出 唯一 标识 的 Key， 然 后 在 Map 中 找 出 对 应 的 链表 ， 并 放 到 链 
表 的 末尾 ， 而 这 个 链表 无 形 之 中 也 是 一 个 久未 使 用 的 数据 结构 的 表示 。 
如 采 对 这 个 缓存 系统 所 占用 的 显存 有 一 个 上 限 ， 那 么 就 可 以 在 这 些 链表 
的 头 部 开始 清理 资源 ， 即 达到 一 个 LRUCache 的 效果 。 这 里 就 不 再 展 
示 ， 读 者 可 以 自行 完成 。 


这 个 缓存 系统 可 以 应 用 到 png 序 列 图 效果 器 中 ， 使 得 整个 效果 器 不 
用 频繁 地 分 配 和 释放 显存 。 同 时 ， 在 效果 器 中 可 以 再 建立 一 层 缓存 ， 以 
避免 频繁 的 解码 操作 ， 使 用 一 个 数组 解码 并 上 传 到 显卡 中 将 GPUTexture 
对 象 分 别 存储 起 来 ， 再 按照 顺序 加 入 数组 中 ， 按 照 配 置 文件 解析 出 fps 
信息 ， 计 算出 当前 要 使 用 的 Index 后 ， 就 可 以 直接 在 数组 中 取出 
GPUTexture 对 象 使 用 了 ， 这 束 是 一 个 整体 的 优化 方案 。 

















9.4.5 “主题 效果 器 


给 一 个 视频 增加 主题 ， 比 如 下 雨天 、 老 电影 、Sunshine 等 主题 ， 这 
在 一 些 短视 频 社 区 App 里 是 一 项 基本 的 功能 。 具 体 如 何 实 现 主 题 效 果 
器 ， 就 是 本 节 要 讨论 的 内 容 。 


对 于 主题 效果 器 来 讲 ， 一 般 会 分 为 以 下 处 理 流程 : 片头 的 布置 、 作 
者 作品 名 的 泻 染 、 片 中 的 主题 效果 、 对 视频 源 的 处 理 ， 以 及 片尾 的 修饰 
预 处 理 、 这 是 一 整个 处 理 的 过 程 。 对 于 这 个 过 程 的 描述 ， 一 般 会 使 用 配 
置 文 件 实现 ， 这 样 在 App 中 就 可 以 通过 热 更 新 来 随意 增加 主题 了 。 本 广 
介绍 主题 效果 器 的 协议 配置 ， 通 过 协议 配置 ， 会 更 加 清楚 整个 主题 需要 
哪些 基本 效果 占 ， 这 其 中 最 主要 的 一 个 效果 器 束 是 整个 主题 背景 的 展示 
《比如 下 十 大 、 员 轨 或 省 阳 光 S3) 。 下面 乱 介 绍 主 题 宫 景 双 雪上 的 实 
现 。 


背景 效果 器 的 实现 分 为 两 种 。 一 种 是 使 用 粒子 效果 器 实现 。 这 种 实 
现 的 优点 是 有 比较 好 的 性 能 ， 其 缺点 是 设计 人 员 和 开发 者 的 沟通 成 本 比 
较 高 。 一 种 是 使 用 视频 实现 。 这 种 实现 的 优点 是 实现 简单 ， 降 低 了 设计 
人 员 和 开发 者 的 沟通 成 本 ;其 缺点 是 对 于 性 能 来 讲 ， 并 不 是 一 种 最 好 的 
实现 方式 。 笔 者 本 市 会 和 大 家 一 起 讨论 第 二 种 实现 ， 即 使 用 视频 实现 主 
题 效果 右 。 


既然 是 一 个 视频 ， 那 么 要 有 一 个 解码 器 来 将 这 个 主题 视频 一 帧 一 帧 
地 解码 出 来 ， 然 后 按照 这 个 视频 的 fps 信 息 对 应 地 泻 染 到 原始 视频 帧 
上 。 解 码 的 内 容 可 以 参看 第 4 革 ， 而 泻 染 工作 是 这 里 介绍 的 重点 ， 先 看 
一 帧 主题 视频 的 特征 ， 如 图 9-7 所 示 。 


图 9-7 描 述 了 视频 主题 的 一 帧 图 像 ， 从 图 中 可 看 到 中 间 部 分 几乎 接 
近 黑 色 ， 而 下 雨天 希望 视频 帧 的 中 间 部 分 (可 能 是 人 脸 〉 可 以 全 部 展现 
出 来 ， 如 何 将 这 个 视频 的 主题 帧 和 原始 视频 帧 进行 奢 加 昵 ? 可 以 使 用 前 
面 介绍 的 滤 色 混合 ， 这 里 使 用 查 表 的 形式 具体 实现 ， 即 先 使 用 
Photoshop 生 成 一 个 滤 色 混合 的 碍 找 表 ， 所 有 的 混合 模式 都 可 避免 直接 
计算 ， 而 通过 查 表 的 方式 得 到 对 应 的 值 ， 这 其 实 是 在 提升 性 能 ， 以 避免 
大 量 的 计算 ， 同 时 可 以 更 加 上 自由 地 控制 从 黑色 到 白色 渐变 的 快速 过 程 。 
根据 不 同 的 主题 ， 设 计 人 员 可 以 直接 调 好 这 个 滤 色 混合 查找 表 ， 再 把 这 
个 查找 表 的 图 片 放 入 资源 文件 中 ， 下 雨天 生成 的 滤 色 混合 查找 表 图 片 如 























图 9-8 所 示 。 





图 9-8 


将 图 9-8 的 这 个 滤 色 混合 的 图 片 作 为 blendTexture 传 递 给 显卡 ， 而 
FragmentShader 中 的 具体 处 理 代 码 如 下 : 





precision lowp float 

varying highp vec2 texturecCcoordinate 
uniform sampler2D videoTexture; 
uniform sampler2D themeTexture; 
uniform sampler2D blendTexture; 

void main() 


vec4 texel = texture2D(videoTexture, textureCoordinate); 

vec3 themeTexel = texture2D(themeTexture, textureCoordinate).rgb; 
texel.r = texture2D(blendTexture, vec2(themeTexel.r, texel.r)).r; 
texel.g = texture2D(blendTexture, vec2(themeTexel.g, texel.g)).g; 
texel.b = texture2D(blendTexture, vec2(themeTexel.b, texel.b)).b; 
gl1_FragColor = vec4(texel.r, texel.r, texel.r, 1.0); 





按照 上 述 代码 处 理 完 毕 之 后 ， 原 始 视频 就 和 主题 视频 进行 了 混合 ， 
至 此 完成 了 视频 主题 效果 嚣 。 接 下 来 介绍 主题 文件 的 协议 配置 ， 开 发 者 
或 者 主题 UI 设计 人 员 会 将 所 用 到 的 所 有 资源 和 这 个 配置 文件 打包 到 一 个 
目录 中 ， 并 压缩 存储 到 服务 器 里 。 当 客户 端 需 要 下 载 的 时 候 ， 就 将 这 个 
压缩 包 从 服务 器 中 下 载 下 来 ， 然 后 解压 ， 解 析 配 置 文件 ， 并 根据 配置 文 
件 中 的 描述 构建 出 一 个 主题 效果 占 的 数据 结构 ， 以 便 进行 后 续 泻 染 处 
理 。 


现在 重点 就 是 如 何 来 描述 主题 协议 。 相 较 于 上 一 小 节 的 png 序 列 图 
的 配置 文件 ， 主 题 配置 文件 会 更 加 复杂 ， 所 以 可 以 使 用 XML 文 件 实 
现 。 一 般 情况 下 ， 一 个 主题 由 多 个 效果 器 构成 ， 从 头 到 尾 可 以 分 为 厂 
头 、 作 者 作品 名 展示 、 片 中 主题 效果 、 片 尾 处 理 等 。 而 每 一 个 效果 器 都 
会 有 一 个 开始 作用 时 间 和 结束 作用 时 间 ， 以 便于 在 泻 染 某 一 帧 视频 帧 的 
时 候 ， 可 以 将 视频 帧 的 时 间 惟 作为 参考 ， 从 而 决定 这 一 帧 视频 帧 到 底 要 
经 过 哪 几 个 效果 器 的 处 理 ， 这 样 就 可 以 确定 所 有 效果 器 都 应 该 有 两 个 参 
数 了 ， 即 sequenceIn〔 代 表 开 始 作 用 时 | 则 〉 和 sequenceOut〔 代 表 结 束 作 
用 时 间 ) 。 每 一 个 效果 器 都 应 该 有 一 个 全 局 唯一 的 名 字 作 为 自己 的 标 
识 ， 所 以 应 该 还 有 一 个 filterName 来 作为 自己 的 效果 器 名 称 。 此 外 ， 每 
个 效果 器 都 应 该 有 日 己 独 有 的 一 些 配 置 变量 ， 比 如 文字 效果 器 里 需要 标 
注 好 文字 的 大 小 、 颜 色 及 位 置 等 信息 。 最 终 将 各 种 效果 器 配合 使 用 ， 从 
而 生成 一 个 主题 效果 器 。 先 来 看 一 个 主题 的 配置 文件 ， 代 人 码 如 下 : 

















<?xml1 version="1.0" encoding="UTF-8"?> 
<theme cover="icon.png" themeName=" 下 雨天 "> 
<filterList> 
<filter filterName="header_scene" sequenceIn="0" sequenceOut="4500"> 
<param id="video path" value="head fade_ scene.mp4" type="8"/> 
<param id="screen fade out in secs" value="3000" type="1"/> 
</filter> 
<filter filterName="text_scene" sequenceIn="600" sequenceOut="3500"> 





<param Id=" Scene width" value="480" type="1"/> 
<param id="scene height" value="480" type="1"/> 
<param id="scene text left" value="40" type="1"/> 
<param id="scene text width" value="400" type="1"/> 
<param id="scene text top" value="240" type="1"/> 
<param id="scene text height" value="28" type="1"/> 
<param id="scene text alignment" value="0" type="1"/> 
<param id="scene text color" value="25, 85, 92, 255" type="5"/> 
<param id="scene text shadow radius" value="1" type="2"/> 
<param id="scene text shadow x offset" value="1" type="2"/> 
<param id="scene text shadow y offset" value="1" type="2"/> 
<param id="text shadow color" value="102, 102, 102, 255" type="E 
<param id="scene text size" value="24" type="1"/> 
<param id="scene text type" value="1" type="1"/> 
<param id="scene fade in end time" value="1410" type="1"/> 
<param id="scene fade out start time" value="3000" type="1"/> 
</filter> 
<filter filterName="blur_scene" sequenceIn="2000" sequenceOut="4500" 
</filter> 
<filter filterName="video_scene" sequenceIn="10" sequenceOut="-10"> 
<param id="black board path" value="rain overlay.mp4" type="8"/> 
<param id="map pic path" value="overlay_screen.png" type="8"/> 
<param id="amaro map pic path" value="amaroMap.png" type="8"/> 
</filter> 
<filter filterName="blur_scene" sequenceIn="-3000" sequenceOut="0"> 
<param id="blur scene ascend flag" value="1" type="3"/> 
</filter> 
<filter filterName="trailer_scene" sequenceIn="-3000" sequenceOut="C 
<param id="duration" value="1.5" type="2"/> 
<param id="scene width" value="480" type="1"/> 
<param id="scene height" value="480" type="1"/> 
<param id="scene text left" value="40" type="1"/> 
<param id="scene text top" value="270" type="1"/> 
<param id="scene text width" value="400" type="1"/> 
<param id="scene text height" value="40" type="1"/> 
<param id="scene text color" value="250, 247, 249, 255" type="5" 
<param id="text shadow radius" value="1" type="2"/> 
<param id="text shadow x offset" value="1" type="2"/> 
<param id="text shadow y offset" value="1" type="2"/> 
<param id="text shadow color" value="102, 102, 102, 255" type="E 
<param id="scene text size" value="26" type="1"/> 
<param id="scene text type" value="1" type="1"/> 
<param id="scene text alignment" value="0" type="1"/> 
<param id="scene overlay path" value="trailer.png" type="8"/> 
</filter> 
</filterList> 
</theme> 





我 们 看 一 下 这 个 配置 文件 的 意义 ， 这 个 主题 的 名 称 叫 下 雨天 ， 封 面 
图 是 icon.png 图 片 ， 具 体 主 题 里 包含 的 效果 器 是 filterlist 这 个 标签 里 包含 
的 。 首 先是 片头 效果 器 ， 使 用 的 视频 是 将 当前 目录 里 的 
head_fade_scene.mp4 作 为 视频 源 ， 作 用 时 间 从 0 开始 ， 到 4500ms 结 束 。 
然后 ， 从 600ms 到 3500ms 这 个 时 间 段 内 会 把 作者 名 以 及 作品 名 以 文字 多 
果 器 的 形式 绘制 到 视频 上 ， 具 体 文字 的 颜色 、 大 小 、 绘 制 区 域 都 在 参数 
中 。 接 下 来 从 2000ms 到 4500ms 这 个 时 间 段 内 会 有 一 个 模糊 的 效果 器 产 








生 作 用 ， 默 认 从 非常 模糊 到 逐渐 清晰 。 以 上 3 个 效 末 器 一 起 构造 了 这 个 
片头 效果 器 ， 再 在 整个 视频 中 间 使 用 视频 附加 效果 器 ， 使 用 的 视频 源 是 
rain_overlay.mp4 视 频 源 。 接 着 ， 从 片尾 减 去 3000ms (这 就 是 配置 

里 -3000 的 含义 ) ， 虽 然 到 片尾 也 会 有 一 个 模糊 效果 器 产生 作用 ， 但 是 
是 从 清晰 逐渐 过 渡 到 模糊 (这 就 是 标签 内 部 参数 ascend flag 的 含义 ) ， 
并 且 在 最 后 有 一 个 片尾 效果 器 ， 即 在 一 个 市 有 logo 的 图 片上 绘制 作品 的 
名 字 和 作者 的 名 字 ， 具 体 的 文字 以 及 logo 的 图 片 配置 在 这 个 标签 内 部 的 
参数 中 ， 这 个 效果 器 和 之 前 的 模糊 效果 器 共同 构造 成 为 一 个 片尾 效果 
器 。 这 就 是 整个 主题 配置 文件 所 描述 的 场景 ， 读 者 可 以 参看 本 章 代 码 目 
录 中 的 下 雨天 视频 主题 。 





9.5 本章 小 结 


本 章 首 先 介 绍 了 图 像 的 基本 处 理 ， 然 后 讨论 了 一 些 复杂 的 图 像 处 理 
算法 ， 最 后 两 节 从 两 种 技术 以 构 的 角度 分 别 介绍 了 如 何 使 用 图 像 处 理 的 
技术 ， 该 者 可 以 根据 自己 的 系统 所 使 用 的 技术 架构 来 选用 技术 实现 。 本 
章 结 束 之 后 ， 在 第 7 章 最 后 留 下 的 两 个 问题 ， 其 实 惑 都 解决 了 。 接 下 来 
第 10 章 会 把 第 8 章 和 第 9 章 学 到 的 内 容 应 用 到 第 7 章 的 视频 录制 中 ， 最 终 
会 构造 出 一 球 专 业 的 视频 录制 应 用 。 














第 10 章 ”专业 的 视频 录制 应 用 实践 


本 章 会 在 第 7 章 的 基础 上 ， 再 结合 第 8 章 和 第 9 章 的 内 容 ， 完 成 一 个 
专业 视频 的 录制 应 用 。 一 个 视频 录制 的 应 用 分 为 三 部 分 : 录制 视频 部 
分 、 编 辑 部 分 和 离线 保存 部 分 。 当 然 ， 如 果 是 直播 应 用 的 推 流 端 ， 那 么 
只 有 第 一 部 分 的 内 容 。 其 中 人 第 一 部 分 的 输入 是 摄像 头 和 麦 元 风 ， 而 第 二 
部 分 和 第 三 部 分 的 输入 是 解码 器 。 解 码 喜 在 第 3 章 中 已 经 讲解 过 ， 对 于 
解码 音频 来 说 ， 这 种 解码 的 实现 没有 任何 性 能 问题 ， 但 是 对 于 解码 视频 
《无 其 是 高 清 视 频 ) 来 说 ， 其 性 能 束 会 成 为 瓶 山 。 

















10.1 视频 硬件 解码 器 的 使 用 


本 节 会 介绍 在 Android 平 台 和 iOS 平 台 上 硬件 解码 器 的 使 用 ， 并 基于 
第 5 章 视频 播放 器 的 项 目 继续 开发 。 待 集成 好 硬件 解码 器 之 后 ， 读 者 可 
以 对 比 CPU 和 内 存 的 使 用 情况 ， 以 及 耗 电 量 的 情况 。 对 于 任何 H264 的 解 
码 器 而 言 ， 都 要 将 SPS 和 PPS 信 息 传递 给 解码 器 。 在 第 3 章 使 用 FFmpeg 解 
码 视 频 的 时 候 ， 我 们 并 没有 显 式 设 置 SPS 和 PPS 信 息 ， 是 因为 在 FFmpeg 
内 部 自己 做 了 设置 ， 但 是 对 于 硬件 解码 器 来 讲 ， 开 发 者 必须 手动 设置 。 
另外 ， 使 用 FFmpeg 解 码 出 来 的 视频 帧 是 以 YUV 格 式 的 表示 形式 存储 于 
内 存 中 的 ， 但 是 对 于 硬件 解码 器 来 讲 ， 一 般 都 是 直接 解码 到 显存 中 ， 便 
十 后续 的 处 理 与 泻 染 。 所 以 下 面 先 来 看 如 何 从 视频 流 中 解析 SPS 和 PPS 


百 vvo 





10.1.1 初始 化 信息 准备 


请 读者 回忆 第 7 章 是 如 何 将 编码 H264 之 后 的 SPS 和 PPS 信 息 封 装 到 视 
频 流 中 去 的 ， 就 是 将 SPS 和 PPS 以 一 定 的 格式 写 入 视频 流 的 编码 器 上 下 
文 的 extradata 这 个 属性 中 。 而 在 解码 中 输入 是 一 个 视频 流 ， 然 后 要 得 到 
视频 流 里 的 SPS 和 PPS 信 息 ， 这 与 编码 过 程 正 好 是 一 个 逆 过 程 。 将 一 个 
视频 流 〈 本 地 文件 或 者 网 络 资源 ) 最 终 显示 出 来 ， 要 经 历 协议 解析 、 封 
装 格式 的 解析 、 解 码 、 音 视频 同步 、 泻 染 这 一 系列 的 步骤 ， 第 5 章 中 已 
经 完成 了 一 个 视频 播放 器 ， 而 本 节 的 目的 是 将 解码 环节 蔡 换 为 硬件 解 
码 ， 以 提升 整个 App 的 性 能 。 


这 里 的 协议 解析 和 封装 格式 的 解析 还 是 使 用 FFmpeg 框 架 来 完成 ， 
所 以 要 实现 硬件 解码 器 ， 就 要 先 写 一 个 子 类 来 继承 自 原来 的 
VideoDecoder 类 ， 然 后 重 写 openVideoStream 方 法 。 这 个 方法 原来 在 父 类 
的 职责 是 找 出 第 一 个 视频 流 ， 然 后 拿 出 视频 流 里 的 解码 器 上 下 文 ， 进 而 
打开 软件 解码 器 。 在 重 写 了 之 后 ， 需 要 打开 的 就 是 硬件 解码 器 ， 所 以 要 
先 得 到 解码 器 上 下 文 ， 然 后 根据 解码 器 上 下 文中 的 extradata 属 性 解析 出 
SPS 和 PPS 人 信息， 代码 如 下 : 











-(void) parseH264SequenceHeader(uint8 t* extra data, 
uint8_t** bufSPS, int* SIzeSPS 
uint8_t** bufPPS, int* sizePPS) { 
int spsSize = (extra data[6] << 8) + extra data[7]; 
*sizeSPS = spsSize; 
*bufSPS = &extra data[8]; 
int ppsSize = (extra data[8+spsSize+1] << 8) + extra data[8+spsSize+2]; 
*bufPPS = &extra data[8 + spsSize + 3]; 
*sizePPS = ppsSize; 


} 








在 上 述 代 码 中 ， 传 入 参数 就 是 解码 器 上 下 文中 的 extradata 属 性 ， 这 
个 方法 会 将 解析 出 来 的 SPS 部 分 的 数据 放 入 bufSPS 中 ， 数 据 的 大 小 则 放 
入 SizeSPS 变 量 中 ; 将 PPS 部 分 的 数据 放 入 bufPPS 中 ， 大 小 则 放 入 sizePPS 
变量 中 。 有 具体 实现 代码 恰好 是 7.5.2 节 将 SPS 和 PPS 封 装 到 extradata 属 性 中 
的 一 个 逆 过 程 ， 即 取出 下 标 为 6 和 下 标 为 7 的 元 素 并 按照 高 低位 组 合 为 
SPS 的 大 小 ， 记 为 sizeSPS， 这 样 从 下 标 为 8 的 位 置 开 始 长 度 为 sizeSPS 的 
内 存 区 域 表 示 的 就 是 SPS 的 信息 。SPS 结 束 之 后 的 两 个 下 标 按照 高 低位 
组 合 就 可 以 形成 PPS 的 大 小 ， 记 为 sizePPS， 而 从 这 两 个 代表 PPS 的 size 的 
下 标 开始 向 后 数 ， 长 度 为 sizePPS 的 内 存 区 域 表示 的 就 是 PPS 的 信息 。 大 











家 可 以 参考 第 7 章 中 的 逆 过 程 以 加 深 理 解 。 


待 SPS 和 PPS 信 息 解 析出 来 之 后 ， 进 入 iDOS 平 台 和 Android 平 台所 提 
供 的 硬件 解码 器 的 学 习 之 前 ， 先 来 回顾 H264 的 两 种 封装 格式 : 一 种 是 
Annexb 的 封装 格式 ， 另 外 一 种 是 mp4 (AVCC) 的 封装 格式 。 在 第 7 章 
最 后 的 封装 步骤 中 ， 我 们 曾经 手动 将 Annexb 格 式 的 H264 码 流转 换 为 
MP4 封 装 格 式 的 码 流 ， 这 两 种 格式 的 表示 如 图 10-1 所 示 。 











把 
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图 10-1 


这 里 需要 注意 的 是 ，AVCC 格 式 中 ，Nalu 的 Length 需 要 四 个 字 节 的 
大 尾 端 (big endian) 顺序 ， 可 以 参考 7.5.2 市 。 在 解码 的 过 程 ， 需 知道 解 
码 右 到 底 要 传 入 哪 一 种 格式 ， 并 且 还 要 了 人 解 我 们 从 FFmpeg 中 得 到 的 
H264 的 AVPacket 是 哪 一 种 格式 。 对 于 第 一 个 问题 ， 不 同 的 平台 是 不 一 
致 的 ，VideoToolbox 要 求 的 是 AVCC 格 式 的 输入 ， 而 MediaCodec 要 求 的 
却 是 Annexb 格 式 的 输入 。 但 是 FFmpeg 解 封装 出 来 的 AVPacket 通 常 是 
AVCC 格 式 的 ， 对 于 不 同 平台 开发 者 该 如 何 处 理 ? 下面 我 们 分 别 进行 讲 
解 。 





10.1.2 ”VideoToolbox 解 码 H264 


SPS 和 PPS 里 记录 着 编码 器 编码 视频 所 用 的 profile、level、 图 像 的 宽 
和 高 、deblock 滤 波 器 等 信息 ， 而 解码 器 要 想 正确 初 始 化 且 解 码 成 功 ， 必 
须知 道 编码 器 使 用 的 这 些 原 始 信 息 。 因 此 ， 下 面 分 三 部 分 来 介绍 硬件 解 
码 堪 的 使 用 ， We 然后 调用 
硬件 解码 器 解码 出 原始 格式 的 数据 ， 最 终 销 毁 这 个 解码 器 


1.VideoToolbox 的 初始 化 


前 面 多 次 提 到 ， 要 想 使 用 iOS 平 台 提 供给 开发 者 的 多 媒体 API， 就 必 
须 初始 化 FormatDescription 来 摘 述 编码 器 具体 的 格式 信息 ， 这 里 也 一 
样 。 首 先 要 利用 SPS 信 息 和 PPS 信 息 构造 出 一 个 
CMYVideoFormatDescriptionRef 实 例 来 描述 编码 器 编码 的 格式 信息 ， 代 码 
如 下 : 











uint8_t* bufSPS 
uint8_t* bufPPS 
int sizeSPS = 0; 
int sizePPS = 0; 
this->parseH264SequenceHeader (videoCodecCtx->extradata, 
&bufSPS, &sizeSPpS, &bufPPS, &sizePPS); 
uint8_t* parameterSetPointers[2] = {bufSPS, bufPPS}; 
size_t parameterSetSizes[2] = {sizeSPpS, sizePPS}; 
CMVideoFormatDescriptionRef formatDesc; 
OSStatus status = CMVideoFormatDescriptionCreateFromH264ParameterSets( 
kCFAllocatorDefault, 2, (const uint8_t *const*)parameterSetPointers, 
parameterSetSizes, 4, &formatDesc); 


9; 
90; 





从 以 上 代码 中 可 以 看 到 ， Cd a 
PPS 人 信息， 然后 根据 SPS 信 息 和 PPS 信 息 构 造 对 应 的 数据 结构 ， 最 终 调用 
API 构 造 出 formatDesc 变 量 。 接 下 来 利用 这 个 变量 就 可 以 去 初始 化 便 件 
解码 器 ， 代 码 如 下 : 














// 1: 解 码 完 毕 的 回调 函数 
VTDecompressionOutputCallbackRecord callBackRecord; 
callBackRecord.decompressionOutputCcallback = 

decompressionSessionDecodeFrameCallback; 
callBackRecord.decompressionOutputRefCon = (_ bridge void *)self; 
// 2: 解 码 输出 的 CVPixelBuffer 的 目标 格式 
NSDictionary *destinationImageBufferAttributes = 

[NSDictionary dictionarywithObjectsAndKeys: 

[NSNumber numberwithBool:YES], 
































(id)kCVPixelBufferOpenGLESCompatibilityKey, nil]; 
// 3: 创 建 解 码 器 
OSStatus status = VTDecompressionSessionCreate(NULL, _formatDesc, NULL, 
(_ bridge CFDictionaryRef)(destinationImageBufferAttributes), 
&callBackRecord, & decompressionSession) ，; 
if(status != noErr) { 
NSLog(@"Video Decompression Session Create: \t failed..."); 











上 述 代 码 的 第 一 部 分 是 构造 一 个 解码 器 解码 完毕 之 后 的 回调 函数 ， 
用 于 接受 解码 之 后 的 原始 视频 帆 。 由 于 解码 费解 码 之 后 的 视频 帧 原始 数 
据 是 以 CVPixelBuffer 数 据 结构 来 存放 的 ， 所 以 代码 的 第 二 部 分 用 来 指定 
解码 之 后 的 输出 格式 。 由 于 我 们 最 终 要 使 用 OpenGL ES 来 做 泻 染 ， 所 以 
这 里 只 设置 OpenGL “ES 兼容 性 的 属性 为 YES。 当 然 也 可 以 设置 输出 格 
式 ， 例 如 ， 若 解码 器 解码 到 UIImageView 上 显示 ， 就 需要 设置 
PixelFormat 为 BGRA 的 格式 ; 知 在 解码 到 UIImageView 上 显示 的 情况 
下 ，OpenGL ES 的 兼容 性 惑 必 须 设置 为 NO。 人 代码 的 最 后 一 部 分 就 是 根 
据 前 面 的 三 个 信息 (FormatDesc、Callback、bufferAttr〉 来 构造 解码 
器 ， 再 判断 status 的 状态 来 看 解码 器 是 否 创 建成 功 。 


2.VideoToolbox 解 码 过 程 


解码 过 程 需要 重 写 父 类 的 decodeVideo 方 法 ， 然 后 在 这 个 方法 中 使 
用 人 硬件 解码 器 来 解码 视频 帧 。VideoToolbox 需 要 开发 者 传 入 AVCC 格 式 
的 H264 视 频 帧 ， 如 果 是 一 个 裸 的 H264 文 件 ， 封 装 格式 束 是 Annexb 格 式 
的 ， 这 时 就 需要 手动 转换 为 AVCC 的 格式 ， 再 传递 给 解码 器 。 但 是 ， 在 
FFmpeg 中 经 过 解 封 装 (Demux) 之 后 的 AVPacket 束 是 AVCC 的 封装 格 
式 ， 因 此 不 需要 进行 转换 。 了 解 了 格式 之 后 ， 束 来 看 一 下 VideoToolbox 
接受 的 具体 结构 体 类 型 ， 即 CMSampleBuffer、CMSampleBuffer 是 由 
CMBlockBuffer、FormatDesc、TimelInfo 共 同 组 成 的 ，CMBlockBuffer 中 
存储 的 就 是 实际 解码 之 前 的 数据 ， 可 以 从 AVPacket 的 data 变 量 中 得 到 。 
接 下 来 构造 CMBlockBuffer 结 构 体 ， 代 码 如 下 : 























CMBlockBufferRef blockBuffer = NULL; 

uint8_t* data = packet .data; 

int blockLength = packet .size; 

OSStatus status = CMBlockBufferCreatewithMemoryBlock(NULL, data, 
blockLength, 
kCFAllocatorNull, NULL, 
09, 

blockLength, 

0, &blockBuffer); 
if(status != kCMBlockBufferNoErr) { 
NSLog(@"BlockBufferCreation: failed,..."); 





接 下 来 继续 构造 CMSampleBuffer 结 构 体 ，FormatDesc 就 是 最 开始 通 
过 SPS 信 息 和 PPS 信 息 构 造 出 来 的 结构 体 ， 而 TimeInfo 可 以 由 AVPacket 
结 . 体 中 的 PTS 和 DTS 变 换 得 到 ， 所 以 构造 结构 体 CMSampleBuffer 的 代 
但 如 下 : 








int64_t presentationTimeStamp = av_rescale q(packet.pts, 
formatCctx->streams[videoStreamIndex]->time_base, AV_TIME_ BASE 0Q); 
int64_t decompressionTimeStamp = av_rescale q(packet.dts, 
formatCtx->streams[videoStreamIndex]->time_base, AV_TIME BASE 0Q); 
int64 t duration = packet.duration; 
if(!duration)t{ 
duration = 1000 / [self getVideoFPS]; 
} 


int32_t timeSpan = 1000; 
CMSampleTimingInfo timingInfo,; 
timingInfo.presentationTimeStamp = CMTimeMake(presentationTimeStamp, timeSpa 
timingInfo.decodeTimeStamp = CMTimeMake(decompressionTimeStamp, timeSpan); 
timingInfo.duration = CMTimeMake(duration, timeSpan); 
const Size_t sampleSize = blockLength,; 
status = CMSampleBufferCreate(kCFAllocatorDefault, 
blockBuffer, true, NULL, NULL, 
formatDesc, 1, 0, &timingInfo, 1, 
&sampleSize, &sampleBuffer ); 
if(status != noErr) { 
NSLog(@" SampleBufferCreate: failed..."); 





上 述 代 码 执 行 完毕 之 后 ， 就 顺利 地 将 AVPacket 转 换 成 了 
CMSampleBuffer 结 构 体 。 接 着 就 可 以 调用 解码 方法 了 。 对 于 解码 方法 ， 
这 里 要 着 重 说 明 一 下 ， 解 码 方法 并 不 会 直接 将 解码 后 的 原始 数据 返回 给 
开发 者 ， 而 是 通过 第 一 步 中 设置 的 callback 方 法 将 解码 之 后 的 数据 提取 
出 来 ， 并 且 共 有 两 种 解码 模式 : 一 种 是 同步 方式 ， 力 一 种 是 异步 方式 。 
这 两 种 模式 代表 的 意义 是 这 个 解码 API 的 调用 是 否 等 待 这 一 帧 解码 完毕 
之 后 再 返回 。 先 来 看 如 何 调用 解码 API， 代 码 如 下 : 








VTDecodeFrameFlags flags = kVTDecodeFrame_ EnableAsynchronousDecompression; 

VTDecodeInfoFlags flagOut; 

status = VTDecompressionSessionDecodeFrame(_decompressionSession, 
sampleBuffer, flags, &sampleBuffer, &flagOut); 

if (status == noErr) { 
VTDecompressionSessionWaitForAsynchronousFrames(_decompressionSession); 

} 


videoFrame.position = presentationTimeStamp / 1000000.0; 
videoFrame.duration = (float)duration / 1000.0; 
CFRelease(sampleBuffer ) ， 

if (NULL != blockBuffer) { 


CFRelease(blockBuffer ) ， 
blockBuffer = NULL 


return videoFrame; 





这 里 的 代码 比较 简单 ， 解 码 方 法 的 第 ee 第 二 
个 参数 就 是 前 面 构造 的 sampleBuffer， 第 三 个 参数 是 解码 模式 ， 
参数 是 要 传递 到 回调 函数 的 变量 ， 最 后 一 个 参数 可 以 传 空 。 省 一 a 
意 的 是 ， 这 里 使 用 的 是 异步 解码 模式 ,， 但 是 在 解码 函数 结束 之 后 ， 调 用 
了 WaitForAsync 的 方法 等 待 解码 过 程 的 结束 。 当 然 ， 将 解码 之 后 的 数据 
封装 到 videoFrame 中 是 在 回调 函数 中 进行 操作 的 ， 回调 函数 的 实现 稍 后 
再 展示 ， i 会 释放 掉 blockBuffer 与 sampleBuffer， 并 将 
videoFrame 返 回 。 回 调 函 数 代码 如 下 : 














void decompressionSessionDecodeFrameCallback(void *decompressionOutputRefCor 
void *sourceFrameRefCon, 
OSStatus status, 
VTDecodeInfoFlags infoFlags, 
CVImageBufferRef imageBuffer, 
CMTime presentationTimeStamp, 
CMTime presentationDuration) 


If (status != noErr || !imageBuffer) { 
NSLog(@"Error decompressing frame ..."); 
return; 


} 

NSUInteger framewidth = (NSUInteger)CVPixelBufferGetwWidth(imageBuffer); 
NSUInteger frameHeight = (NSUInteger)CVPixelBufferGetHeight(imageBuffer) 
videoFrame = [[VideoFrame alloc] init]; 

videoFrame.width = framewidth; 

videoFrame.height = frameHeight; 

videoFrame.imageBuffer = (_ bridge id)imageBuffer; 





从 以 上 代码 可 以 看 到 ， 回 调 函 数 中 第 一 个 参数 实际 上 就 是 构造 硬件 
解码 器 传递 进去 的 callback 的 上 下 文 ， I 第 二 个 参 
数 则 是 调用 解码 函数 时 传递 进去 的 第 四 个 参数 ; 二 个 参数 statuc 代 表 
这 一 帧 是 否 解 码 成 功 ， 其 中 最 重要 的 参数 是 mageBafter 5 时 间 恰 信息 ， 
从 以 上 代 于 中 可 以 色光 它们 好 六 到 了 震 构 体 中 ， 并 返回 给 了 客户 器 代 





这 样 就 完成 了 解码 的 操作 ， 读 者 可 以 与 使 用 VideoToolbox 做 硬件 编 
码 的 过 程 进行 对 比 ， 体 会 编码 和 解码 两 个 过 程 的 相同 点 和 不 同 点 。 


3.VideoToolbox 的 销毁 


最 后 的 销毁 阶段 需要 重 写 父 类 的 closeVideoStream 方 法 ， 这 里 会 销 
毁 为 硬件 解码 器 分 配 的 资源 ， 代 人 码 如 下 : 





if(_formatDesc){ 
CFRelease(_formatDesc); 
} 


if(_decompressionSession){ 
VTDecompressionSessionInvalidate(_decompressionSession); 
CFRelease(_decompressionSession); 


} 





至 此 ， 硬 件 解码 器 在 iOS 平 台 的 实现 就 完成 了 ， 但 是 细心 的 读者 可 
能 会 发 现 ， 硬 件 解码 器 解码 出 来 的 数据 类 型 实际 上 是 一 个 
CVPixelBuffer， 而 这 与 之 前 软件 解码 器 解码 出 来 的 YUV420P 的 数据 是 
不 一 致 的 ， 这 就 导致 了 在 后 续 的 泻 染 阶段 肯定 也 会 出 现 不 一 致 。 的 确 ， 
在 后 续 的 VideoOutput 中 ， 要 改动 代码 以 适 配 数 据 帧 类 型 是 
CVPixelBuffer 类 型 的 泻 染 。 有 具体 的 泻 染 方法 与 第 6 章 中 介绍 的 将 摄像 头 
采集 出 来 的 一 帧 CVPixelBuffer 用 OpenGL ES 演 染 到 View 上 是 一 致 的 。 但 
是 可 能 也 有 读者 会 想到 另外 一 种 设计 方案 ， 即 在 解码 结束 之 后 ， 直 接 锁 
定 这 个 PixelBuffer， 根 据 宽 、 高 及 对 齐 方式 将 YUV 数 据 读 取 到 内 存 中 ， 
然后 再 封装 到 VideoFrame 中 ， 这 样 泻 染 端 就 不 用 去 做 任何 改动 ， 这 也 是 
面向 对 象 编程 的 优雅 实践 。 这 种 想法 十 分 有 道理 ， 其 实 笔者 最 开始 也 是 
这 么 做 的 ， 但 是 锁定 PixelBuffer 后 ， 将 YUV 数 据 读 取 到 内 存 中 的 效率 实 
在 太 低 ， 整 体 的 性 能 比 软件 解码 的 性 能 提升 不 了 多 少 ， 所 以 最 终 还 是 去 
以 达到 最 高 性 能 的 提 














10.1.3 ”MediaCodec 解 码 H264 


在 Android 平 台 上 提供 给 开发 者 的 人 硬件 解码 器 API 接 口 是 
MediaCodec， 调 用 硬件 解码 器 分 为 三 个 阶段 ， 分 别 是 初始 化 阶段 、 解 码 
阶段 和 销毁 资源 阶段 。 初 始 化 阶段 需要 使 用 SPS、PPS 及 输出 纹理 ID 来 
配置 一 个 MediaCodec 实 例 ， 解 码 阶段 则 需要 将 FFmpeg 解 封装 出 来 的 
AVPacket 结 构 体 转换 之 后 再 给 MediaCodec 进 行 解码 ， 解 码 之 后 的 数据 
帧 已 经 存放 到 了 第 一 步 的 输出 纹理 ID 上 ; 当 不 再 需要 硬件 解码 器 的 时 
候 ， 就 销毁 相关 的 资源 。 最 终 解 码 出 来 的 数据 帧 就 是 一 个 纹理 ID， 而 不 
再 是 YUV 的 内 存 数 据 ， 这 就 要 求 我 们 的 视频 帧 队列 不 再 是 原始 内 存 中 的 
队列 ， 而 应 该 是 一 个 可 以 存储 纹理 ID 的 显存 队列 ， 并 且 最 好 是 一 个 循环 
队列 ， 因 为 这 样 可 以 避免 纹理 ID 频繁 地 开 尽 与 销毁 的 代价 ， 同 时 
VideoOutput 模 块 会 去 适 配 直 接 泻 染 一 个 纹理 ID。 


1. 纹 理 循环 队列 
人 循环 队列 可 以 下 接 使 用 循环 链表 来 实现 。 痛 先 ， 规 定 链表 中 存放 的 


元 素 应 该 是 什么 ， 通 常 包 括 纹理 ID、 视 频 帧 的 时 间 戳 ， 以 及 视频 帧 的 宽 
和 高 等 信息 。 所 以 每 个 元 素 结 构 体 的 定义 如 下 : 











typedef struct FrameTexture { 
GLuint texId; 
float position; 
int width,; 
int height; 
} FrameTexture; 





从 以 上 代码 可 以 看 到 ， 这 个 结构 体 很 简单 ， 但 是 要 注意 ， 创 建 这 个 
结构 体 的 地 方 要 负责 分 配 出 一 个 纹理 ID 赋值 给 这 个 结构 体 的 texId 属 性 ， 
当 释 放 这 个 结构 体 对 象 的 时 候 ， 也 要 主动 删除 掉 这 个 纹理 ID 所 占用 的 显 
存 资源 。 基 于 这 个 元 隶 ， 创 建 出 循环 链表 中 的 节点 ， 代 码 如 下 : 





typedef struct FrameTextureNode { 
FrameTexture *texture; 
struct FrameTextureNode *next; 
FrameTextureNode( ){ 
texture = NULL; 
next = NULL; 


} FrameTextureNode ; 


二 一 


定义 好 Node 之 后 ， 接 下 来 束 可 以 构造 这 个 循环 链表 了 ， 在 构造 循环 
链表 之 前 先 明确 对 外 界 提供 的 接口 方法 。 


初始 化 方法 ， 由 于 这 个 方法 要 分 配 纹理 对 象 ， 所 以 需要 在 一 个 
OpenGL ES 上 下 文 线程 中 进行 调用 ， 代 码 如 下 : 








void init(int width, int height, int queueSize); 





在 这 个 方法 的 实现 中 ， 初 始 化 长 度 为 length 的 循环 链表 ，pushCursor 
指 问 第 一 个 节点 ，pullCursor 也 指 问 第 一 个 节点 ， 使 最 后 一 个 节点 
(tail) 的 Next 指 向 第 一 个 节点 (head) ， 这 样 就 构造 好 了 循环 链表 。 当 
解码 器 解码 出 一 帧 视频 帆 后 ， 要 先 锁定 住 pushCursor 指 问 的 元 素 ， 然 后 
将 这 一 帧 视频 帧 找 贝 到 这 个 元 素 的 纹理 ID 上 ， 最 后 解锁 pushCursor 指 问 
的 这 个 元 素 ， 并 让 pushCursor 指 问 自 己 的 下 一 个 节点 ， 以 实现 push 从 一 
个 元 素 到 这 个 队列 中 的 功能 。 其 中 上 锁 和 解锁 的 接口 方法 如 下 : 








FrameTexture* lockPushCursorFrameTexture(); 
void unLockPushCursorFrameTexture(); 





当 从 队列 中 取出 元 素 的 时 候 ，AVSynchronizer 组 件 会 从 队列 中 获取 
队 头 的 一 帧 视频 帧 ， 若 返回 值 大 于 0， 则 代表 获取 到 正确 的 元 素 ， 知 小 
于 0， 则 代表 队列 处 于 丢弃 状态 。 注 意 ， 这 里 不 是 弹出 操作 ， 代 码 如 











int front(FrameTexture **frameTexture); 





当 确 定 要 使 用 这 一 帧 视频 帧 的 时 候 ， 束 要 从 队列 中 弹出 这 一 帧 视频 
帧 ，AVSynchronizer 组 件 调 用 如 下 接口 来 完成 pullCursor 的 移动 操作 : 








int pop(); 





获取 队列 大 小 以 及 丢弃 队列 等 接口 的 代码 如 下 : 





int getValidSize(); 
void abort( ) ; 





最 后 在 析 构 函数 中 遍历 所 有 的 元 系 ， 取 出 元 素 中 的 纹理 ID 并 销毁 ， 
以 及 销毁 元 素 本 刁 。 


了 解 了 循环 队列 中 存储 的 元 系 以 及 接口 方法 ， 在 后 续 使 用 中 就 会 比 
较 清晰 。 接 下 来 我 们 讲解 MediaCodec 这 个 硬件 解码 器 的 具体 使 用 。 


2.MediaCodec 的 初始 化 


从 整个 系统 的 扩展 性 考虑 ， 下 面 编 写 一 个 解码 器 的 子 类 ， 该 子 类 继 
承 目 原 VideoDecoder 类 ， 用 于 完成 硬件 解码 的 功能 ， 在 子 类 中 重 写 父 类 
的 openVideoStream 方 法 ， 用 父 类 中 的 VideoCodecContext 的 extradata 字 段 
解析 出 SPS 和 PPS 信 息 ， 并 存储 为 全 局 变量 作为 备用 。 然 后 在 OpenGL 
ES 的 线程 中 创建 一 个 纹理 ID， 将 这 个 纹理 ID、SPS、PPS 以 及 宽 高 传递 
给 Java 层 ， 由 Java 层 创建 并 配置 MediaCodec 实 例 。 由 于 整个 播放 器 业务 
逻辑 都 是 在 Native 层 开发 的 ， 所 以 这 里 比较 复杂 的 束 在 于 将 Native 层 的 
数据 对 象 传递 到 Java 层 ， 再 由 Java 层 调用 MediaCodec 的 API 来 进行 配 
置 。 我 们 来 看 Native 层 构造 对 象 与 调用 Java 的 过 程 ， 代 人 码 如 下 : 











int decodeTexId = textureFrameUploader->getDecodeTexId(); 
uint8_t* bufSPS = 0 
uint8_t* bufPPS = 0 
int sizeSPS = 0; 
int sizePPS = 0; 
this->parseH264SequenceHeader (extra data, &bufSPS, &sizeSPps, 
&bufPPS, &sizePPS); 
jbyteArray sps = env->NewByteArray(SizeSPS ) ; 
env->SetByteArrayRegion(sps, 0, sizeSps, (jbyte*) bufSPS ) ， 
jbyteArray pps = env->NewByteArray(sizePPS),; 
env->SetByteArrayRegion(pps, 0, sizePPS, (jbyte*) bufPPS ) ， 
jmethodID createVideoDecoderFunc = env->GetMethodID(jcils, 
"createVideoDecoderFromNative", "(III[B[B]Z"]; 
bool suc = (bool) env->CallBooleanMethod(obj, createVideoDecoderFunc, 
width, height, decodeTexId, sps, pps); 
If (!Suc) { 
LOGE("Create MediaCodec decoder failed, use FFMPEG decoder :instead'" ) 


env->DeleteLocalRef(sps); 
env->DeleteLocalRef (pps); 





其 中 ，textureFrameUploader 是 一 个 维护 OpenGL ES 上 下 文 线程 的 封 
装 类 创建 的 实例 对 象 ， 由 这 个 对 象 来 维护 输出 纹理 ID 。 要 注意 的 是 ， 这 
个 纹理 ID 的 格式 不 是 普通 的 GL_ TEXTURE _2D 类 型 ， 而 是 特殊 
GL_TEXTURE_EXTERNAL_OES 类 型 ， 这 种 纹理 类 型 在 前 面 讲 解 
Camera 采 和 集 图 像 的 时 候 已 经 介绍 过 ， 此 处 不 再 歼 述 。 


当然 ， 这 段 代 码 必 须 放 到 一 个 JVM 线 程 中 去 执行 ， 否 则 从 Native 层 
古 不 可 以 调用 Java 层 的 代码 的 ， 具 体 如 何 附加 (Attach〉 到 一 个 JVM 线 
程 中 去 ， 有 一 种 常用 的 写法 ， 代 码 如 下 : 





JNIEnV *env; 

int status = 0) 

bool needAttach = false; 

status = g_jvm->GetEnv((void **) (&env), JNI_VERSION 1 4); 

if (status < 0) { 

If (g_jvm->AttachCurrentThread(&env, NULL) != JNI_OK) { 

LOGE("%s: AttachCurrentThread() failed", __ FUNCTION  ); 
return false; 


} 
needAttach = true; 


} 
// Do Something 
if (needAttach) { 
If (g_jvm->DetachCurrentThread() != JNI_OK) { 
LOGE("%s: DetachCurrentThread() failed", FUNCTION_  ); 


} 





上 述 代码 的 中 间 部 分 (注释 的 Do Something) 就 可 以 用 来 调用 Java 
的 代码 。 接 下 来 看 Java 层 如 何 构 造 与 配置 MediaCodec 实 例 的 。 它 会 使 用 
解码 格式 "video/avc" 与 宽 和 高 来 创建 一 种 媒体 格式 ， 而 且 最 重要 的 是 ， 
将 媒体 格式 的 csd-0 和 csd-1 设 置 成 为 ps 和 pps， 然 后 将 传递 过 来 的 纹理 ID 
构造 成 为 一 个 SurfaceTexture， 并 最 终 构造 为 一 个 Surface， 再 用 这 两 个 
对 象 来 配置 这 个 MediaCodec 解 码 器 。 代 码 如 下 : 











public boolean CreateVideoDecoder(int width, int height, int texId, 
byte[] sps, byte[l] pps) { 
m format = MediaFormat.createVideoFormat("video/avc", width, height); 
m_format.setByteBuffer("csd-0", ByteBuffer .wrap(sps)); 
m_format.setByteBuffer("csd-1", ByteBuffer.wrap(pps)); 
try { 
m_surfaceTexture = new SurfaceTexture(texId); 
m_surfaceTexture.setOonFrameAvailableListener(this); 
m_surface = new Surface(m_ surfaceTexture); 
m_decoder = MediaCodec.createDecoderByType("video/avc"); 
m_decoder .configure(m format, m_surface, null, 0); 
m_decoder .start(); 
} catch (Exception e) { 
Log.e(TAG, "" + e.getMessage()); 
release(); 
return false; 


return true; 


| | 


从 以 上 代码 可 以 看 到 ， 如 果 配 置 过 程 中 出 现 异常 ， 则 会 调用 release 
方法 将 所 分 配 出 的 资源 全 部 释放 掉 ， 并 返回 false， 代 表 创 建 硬 件 解码 器 
失败 ; 如 果 成 功 ， 则 返回 true， 代 表 配 置 好 了 MediaCodec 实 例 。 当 配置 
好 硬件 解码 器 之 后 ， 接 下 来 就 是 实际 的 解码 过 程 ， 下 面 会 进行 讨论 。 


3.MediaCodec 解 码 过 程 


实际 的 解码 过 程 就 是 如 何 将 输入 转换 为 输出 。 首 先 来 看 MediaCodec 
允许 如 何 输入 ， 在 6.3.2 节 讲解 过 MediaCodec 的 原理 图 〈 见 图 6-12) ， 要 
想 给 MediaCodec 输 入 ， 需 要 将 解码 器 的 变量 inputBuffers 取 出 ， 然 后 在 每 
次 将 H264 视 频 帧 给 解码 器 之 前 ， 取 出 对 应 的 inputBuffer 的 mdex， 并 将 
Annexb 格 式 的 H264 数 据 放 到 这 个 buffer 中 。 这 部 分 代码 主要 是 在 Java 
层 ， 代 码 如 下 : 

















byte[] h264Data; 
int dataSize; 
final int inputBufIndex = m_decoder ,dequeueInputBuffer(TIMEOUT_USEC ) ; 
if (InputBufIndex >= 0) { 
ByteBuffer inputBuf = m decoderInputBuffers[inputBufIndex]; 
inputBuf.clear(); 
InputBuf .put(h264Data, 0, dataSize); 
m_decoder .queueInputBuffer(inputBufIndex, 0, inputSize, timeStamp, 0); 
} 





其 中 ，h264Data 和 dataSize 这 两 个 参数 由 Native 层 传递 过 来 ， 最 终 调 
用 的 queueInputBuffer 方 法 代表 将 数据 输入 给 了 解码 器 。 


明确 了 如 何 提供 输入 之 后 ， 还 需要 明确 输入 的 数据 是 什么 格式 的 ， 
这 里 主要 是 C++ 层 的 逻辑 ，MediaCodec 要 求 输入 的 H264 封 装 格式 是 
Annexb 格 式 的 ， 而 FFmpeg 解 封装 出 来 的 AVPacket 结 构 体 是 AVCC 格 式 
的 ， 所 以 这 里 要 做 一 个 转换 ， 使 其 符合 MediaCodec 要 求 的 输入 格式 。 
AVCC 封 装 格式 转换 为 Annexb 封 装 格式 的 代码 如 下 : 





void MediaCodecVideoDecoder::convertPpacket(AVPacket* packet) { 

uint8_t* data = 0; 

int pos = 0; 

long Sum = 0; 

uint8_t hide 全 让 

header[0] = 0; 

header[1] = 0; 

header[2] = 0; 

header[3] = 1; 

while (pos < packet ->size) { 
data = packet->data+pos; 


sum = data[0] << 24 + data[1] << 16 + data[2] << 8 + data[3]; 
memcpy(data, header, 4); 

pos += (int)sum; 

pos += 4; 





由 于 一 帧 视频 帧 里 可 能 有 多 个 Nalu， 所 以 这 里 有 一 个 while 循 环 ， 把 
所 有 Nalu 中 开始 的 length 换 为 StartCode， 这 样 就 将 MP4 (AVCC) 封装 格 
式 的 了 264 数 据 转换 为 了 Annexb 封 装 格式 ， 除 了 这 种 手动 转换 的 方法 以 
外 ，FFmpeg 还 提供 了 一 种 类 型 的 Filter， 即 h264_mp4toannexb 这 个 bit 
stream filter， 使 用 这 个 Filter 也 可 以 达到 同样 的 效果 。 代 码 如 下 : 








// 1: 初 始 化 h264_mp4toannexb 这 个 Filter, 注意 在 编译 FFmpeg 的 时 候 打 开 这 个 开关 
AVBitStreamFilterContext* bsfc = av_bitstream filter_init("h264_mp4toannexb" 
// 2: 转 换 格式 
AVPacket newpacket,; 
av_init_packet(&newpacket ) ， 
int ret = av_bitstream filter_filter(bsfc, videoCodecContext, NULL, 
&newpacket.data, &newpacket.size, pkt.data, pkt.size, 
pkt.flags & AV_PKT_FLAG_KEY); 
if (ret >= 0) { 
// 转换 成 功 , 可 以 取出 newpacket 中 的 data 数 据 




















} 
// 3: 销 毁 这 个 Filter 
av_bitstream filter_close(bsfc); 











接 下 来 就 是 如 何 获 得 解码 器 解码 出 来 的 视频 帆 。 还 记得 在 第 一 阶段 
配置 MediaCodec 的 时 候 ， 创 建 的 SurfaceTexture 设 置 了 一 个 
OnFrameAvailable 的 监听 器 吗 ? 即 竺 解码 右 解 码 出 一 帧 视频 帧 之 后 ， 就 
会 调用 这 个 监听 器 中 的 onFrameAvailable 方 法 ， 而 这 个 方法 中 的 处 理 就 
是 最 关键 的 地 方 。 所 以 在 解码 过 程 中 将 H264 数 据 输入 给 解码 器 〈 将 
inputBuffer 放 入 MediaCodec 的 输入 队列 中 ) 之 后 ， 就 要 等 待 《wait) 在 
这 里 ， 人 代码 如 下 : 





m_decoder .queueInputBuffer(inputBufIindex, 0, inputSize, timeStamp, 0); 
synchronized (m frameSyncObject) { 
try { 
m_frameSyncObject .wait(TIMEOUT_MS); 
if (!m_ frameAvailable) { 
Log.e(TAG, "Frame wait timed out!"); 
return false; 


} catch (InterruptedException ie) { 
Log.e(TAG, "" + ie.getMessage()); 
ie.printStackTrace( ); 
return false; 





当 监 听 器 的 onFrameAvailable 函 数 被 调用 的 时 候 ， 就 要 发 出 signal 信 
号 ， 让 解码 线程 继续 运行 ， 代 码 如 下 : 





public void onFrameAvailable(SurfaceTexture st) { 
synchronized (m frameSyncObject) { 
m_frameAvailable = true,; 
m_frameSyncObject.notifyAll(); 
} 
} 








从 以 上 代码 中 可 以 看 到 ， 在 这 个 方法 中 会 发 出 signal 信 号 ， 让 解码 
线程 继续 运行 ， 而 在 Native 层 会 由 解码 线程 转 到 textureUploader 线 程 ( 这 
是 一 个 OpenGL ”ES 的 演 染 线程 〉 进 行 调用 Java 层 的 代码 来 更 新 纹理 ， 
Java 层 更 新 纹理 代码 如 下 : 





public long updateTexImage() { 
try { 
m_surfaceTexture.updateTexImage( ); 
} catch (Exception e) { 
e.printSstackTrace(); 


return m timestampOfCurTexFrame,; 





这 个 方法 执行 完毕 之 后 ， 便 件 解码 器 解码 成 功 的 数据 就 被 更 新 到 
textureUploader 中 维护 的 输出 纹理 ID 上 ， 至 此 就 完成 了 整个 解码 过 程 。 
解码 过 程 就 介绍 到 这 里 ， 由 于 涉及 Native 层 代码 和 Java 层 代码 的 交互 ， 
网 以 整个 流程 比较 复杂 ， 读 者 可 以 参考 代码 仓库 中 的 示例 代码 加 深 理 

人 


4.MediaCodec 的 销毁 


这 个 阶段 需要 重 写 doseVideoFrame 方 法 ， 调 用 父 类 方法 之 后 ， 再 调 
用 Java 层 的 销毁 MediaCodec 的 方法 ， 这 里 展示 Java 层 的 代码 如 下 : 





if(m decoder) { 
if(m_inputBufferQueued)t{ 
m_decoder .flush(); 


m_decoder .stop(); 
m_decoder .release( ); 


} 


从 以 上 代码 可 以 看 到 ， 首 先 判断 一 个 布尔 型 变量 
m_inputBufferQueued。 这 个 变量 的 意义 是 ， 当 解码 线程 将 H264 的 数据 
输送 给 了 解码 器 ， 但 是 解码 器 还 没有 解码 吉 束 时 ， 这 个 变量 就 被 设置 为 
true。 当 这 个 变量 被 设置 为 true 时 ， 需 要 调用 解码 器 的 ftush 方 法 ， 剩 下 的 
就 是 调用 stop 方 法 来 停止 解码 颖 ， 最 终 释 放 解 码 器 资源 。 


至 此 硬件 解码 器 就 介绍 完了 ， 该 者 可 以 根据 书 中 的 介绍 找到 对 应 代 
人 这 样 才 可 以 更 加 熟练 地 应 用 到 自己 的 项 目 














10.2 ”音频 效果 器 的 集成 


本 节 会 介绍 如 何 把 第 8 章 中 的 音频 处 理 算法 集成 到 App 中 ， 在 
Android 平 台 和 iOS 平 台中 的 实现 肯定 不 同 ， 因 为 Android 平 台 的 算法 都 
会 在 CPU 上 进行 计算 ， 而 iOS 平 台 使 用 的 是 AudioUnit 的 实现 ， 所 以 本 节 
分 为 两 部 分 来 讲解 ， 分 别 对 第 8 章 中 两 个 平台 的 音频 处 理 算 法 给 出 结构 
调整 ， 以 适 配 我 们 的 整个 App 的 架构 。 


在 开始 设计 之 前 ， 对 于 音效 处 理 的 理解 是 很 关键 的 ， 下 面 将 第 8 章 
中 介绍 的 压缩 效果 器 、 均 衡 效果 器 和 混 响 效果 器 作为 基础 的 混 音 效果 
器 ， 并 将 这 三 种 效果 器 使 用 不 同 的 参数 组 合 起 来 ， 形 成 不 同 的 音乐 风 
格 ， 比 如 摇 深 、 流 行 、 舞 曲 等 风格 。 还 有 ， 由 于 各 个 效果 器 的 参数 众 
多 ， 最 好 以 配置 文件 的 形式 来 配置 参数 ， 这 样 就 可 以 在 不 改动 代码 的 情 
况 下 实现 增加 音乐 风格 的 功能 。 我 们 基于 以 上 两 点 来 开始 设计 与 实现 。 











10.2.1 Android 音效 处 理 系 统 的 实现 


由 于 音效 处 理 是 一 个 串 行 的 数据 处 理 过 程 ， 因 此 前 一 级 节点 的 输出 
要 作为 后 一 级 节点 的 输入 ， 并 把 每 级 节点 都 当 作 是 一 个 Filter， 让 所 有 的 
Filter 继 承 自 一 个 其 类 BaseFilter， 这 样 束 可 以 统一 接口 进行 处 理 。 通 过 
上 述 分 析 ， 不 难得 出 绪论， 可 以 使 用 黄 任 链 设 计 模 式 完 成 这 种 场景 的 需 
求 。 而 在 Filter 的 类 型 上 ， 除 了 上 述 三 种 混 音 效果 器 外 ， 应 该 还 有 一 种 最 
基础 的 音量 调节 效果 堪 ， 或 者 是 音量 的 上 自动 增益 控制 效果 器 ， 总 体 结 构 
如 图 10-2 所 示 。 
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图 10-2 


随 着 产品 的 功能 迭代 ， 有 可 能 会 继续 加 入 新 的 效果 器 ， 比 如 淡出 效 
果 器 ， 那 么 就 新 写 一 个 FadeOutFilter 继 承 自 BaseFilter， 然 后 重 写生 命 周 
期 的 方法 来 完成 数据 处 理 ， 作 为 最 后 一 级 节点 放 入 FilterChain 中 。 这 个 
Filter 的 构建 规则 以 及 如 何 添加 到 FilterChain 中 ， 后 面 会 慢 慢 介绍 到 。 


然后 来 看 如 何 初始 化 这 些 Filter， 由 于 不 同 的 Filter 需 要 不 同 的 参 
数 ， 所 以 为 了 满足 当前 Filter 的 参数 组 合 ， 可 抽象 出 一 个 AudioEffect 类 来 
将 这 些 参数 存放 起 来 ， 并 且 新 建 一 个 工厂 类 AudioEffectBuilder 来 构建 这 
个 AudioEffect 对 象 。 从 图 10-3 中 可 以 看 到 ，AudioEffect 中 有 人 声 的 处 理 
链 (Vocalchains) 、 伴 奏 的 处 理 链 (accompanyChains) ， 以 及 后 处 理 
的 处 理 链 mixpostChains) ， 然 后 才 是 其 他 一 些 通 用 参数 ， 比 如 压缩 效 
果 器 的 参数 、 均 衡器 的 参数 、 泥 啊 器 的 参数 等 。 这 里 使 用 工厂 类 
AudioEffectBuilder 来 构建 这 个 AudioEffect 类 型 的 对 象 。 但 如 何 获 得 这 个 
工厂 类 呢 ? 可 新 建 一 个 类 AudioEffectAdapter， 这 个 类 的 职责 就 是 根据 效 
果 右 类 型 返回 对 应 的 工厂 类 。 目 前 只 有 一 个 AudioEffectBuilder， 但 是 后 
期 是 有 可 能 进行 扩展 的 。 

















AudioEffect 
Vocalchains: 009 
accompanyChains: 和 


AudioEffect AudioEffect 





图 10-3 


随 着 产品 的 迭代 ， 后 续 也 会 增加 更 多 的 Filter， 而 这 些 Filter 的 参数 

也 是 未 知 的 。 那 么 如 何 才 能 让 代码 结构 符合 “ 开 闭 原则 ”， 从 而 以 只 增加 
文件 而 不 修改 源 代码 的 形式 来 添加 一 个 AudioEffect 呢 ?答案 是 使 用 抽象 
工厂 的 设计 模式 来 完成 ， 即 新 增 一 个 AudioEffect 的 子 类 ， 比 如 增加 电 音 
效果 器 : AutoTuneAudioEffect， 这 个 类 中 会 包含 很 多 新 的 参数 变量 ， 而 
这 个 类 的 实例 化 以 及 变量 的 赋值 就 由 工厂 类 来 完成 ， 即 
AutoTuneAudioEffectBuilder 来 完成 ， 这 个 类 要 继承 自 AudioEffectBuilder 
来 统一 向 外 界 暴 圳 接口 。 整 体 结构 如 图 10-4 所 示 。 
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图 10-4 
在 各 个 Filter 之 间 传 递 的 数据 结构 ， 一 般 情 况 下 是 两 轨 声 音 的 


buffer (包含 人 声 的 buffer 和 伴奏 的 buffer) 数据 。 但 是 ， 随 着 将 来 产品 
的 迭代 ， 有 可 能 会 有 新 的 效果 器 加 入 ， 可 能 某 些 效果 器 在 实时 处 理 时 也 
需要 额外 的 输入 参数 ， 或 者 有 实时 的 输出 参数 。 所 以 这 里 定义 了 两 个 数 
据 结构 ， 如 图 10-5 所 示 。 
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图 10-5 


由 图 10-5 可 以 看 到 ， 这 里 把 输入 抽象 成 为 了 一 个 AudioRequest 类 ， 
其 中 包含 了 人 声 数 据 buffer、 伴 和 堆 数 据 buffer， 以 及 这 段 buffer 的 大 小 
Csize) 和 时 间 戳 〈frameIndex) ， 最 重要 的 是 最 后 一 个 map 类 型 的 extra 
属性 ， 这 个 属性 就 是 负责 提供 实时 数据 处 理 的 参数 输入 。 同 样 ， 输 出 抽 
象 类 AudioResponse 也 会 有 这 个 map 类 型 的 extra 属 性 ， 可 以 将 实时 处 理 数 
据 的 结果 进行 存储 ， 并 返回 给 客户 端 代码 。 明 确 了 Filter 之 间 传 递 的 数据 
结构 ， 下 面 来 看 BaseFilter 的 具体 代码 : 











class AudioEffectFilter { 

public: 
virtual int init(AudioEffect* audioEffect) = 909; 
virtual void doFilter(AudioRequest* request, AudioResponse* response) = 
virtual void destroy(AudioResponse* response) = 0; 


}; 





随 着 产品 的 达 代 ， 厦 要 增加 一 个 电 首 效果 占 ， 在 满足 “ 开 闭 原则 ”的 
条 件 下 ， 要 考虑 如 何在 只 新 增 几 个 类 而 不 修改 原 有 代码 的 情况 下 完成 场 
景 的 需求 。 这 里 要 分 两 部 分 来 实现 : 第 一 部 分 是 将 新 增 的 Filter 的 枚 举 类 
型 值 放 入 配置 文件 中 ， 后 续 再 根据 枚 举 类 型 值 来 构造 出 AudioEffect 中 的 








元 素 vocalChain; 第 二 部 分 是 使 用 工厂 类 AudioEffectFilterFacoty 来 根据 
效果 器 的 枚 举 类 型 构造 出 对 应 的 效果 器 ， 整 体 结构 如 图 10-6 所 示 。 
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10-6 


接 下 来 封装 一 个 总 体 的 控制 类 AudioEffectProcessor， 将 整个 系统 串 
联 起 来 ， 代 码 如 下 : 





class AudioEffectProcessor { 
protected : 
AudioRequest* request 
AudioResponse* response; 
AudioEffect* audioEffect ， 
public: 
virtual void init(AudioEffect* audioEffect); 


virtual AudioResponse* process(short *vocalBuffer, short *accompanyBuffe 
int audioBufferSize, long frameIndex) = 0; 

virtual void setAudioEffect(AudioEffect* audioEffect) = 0; 

virtual void resetFilterChains() = 0; 

virtual void destroy(); 





最 重要 的 process 方 法 的 人 处理 结构 如 图 10-7 所 示 。 其 中 ， 
vocalEffectFilterChain 是 负责 处 理 人 声 这 一 轨 音 频 的 ， 
accompanyEffectFilterChain 是 负责 处 理 伴 奏 这 一 轨 音 频 的 ， 当 这 两 轨 音 
频 处 理 完 之 后 ， 再 利用 MixEffectFilter 将 这 两 轨 声 音 Mix 为 一 轨 声 音 ， 最 
终 使 用 MixPostEffectFilterChain 给 这 一 轨 声 音 做 最 后 处 理 〈 比 如 淡出 效 
果 器 ) 。 
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图 10-7 


至 此 ， 这 一 套 Android 上 的 音频 处 理 系统 就 搭建 完毕 。 这 套 首 频 处 
理 系 统 的 设计 充分 体现 了 面 回 接口 编程 与 尽量 遵循 了 “ 开 闭 原则 ”。 后 续 
章节 中 ， 我 们 会 将 这 套 系统 集成 到 我 们 的 整个 App 中 ， 所 以 在 这 里 读者 
一 定 要 理解 这 一 套 系统 的 设计 ， 可 以 到 代码 仓库 中 将 对 应 源码 进行 分 
析 ， 便 于 深入 理解 。 

















10.2.2 iiOS 音 效 处 理 系 统 的 实现 


在 iOS 平 台 ， 我 们 基于 AUGraph 这 个 框架 来 实现 音效 处 理 系统 。 从 
名 字 就 可 以 看 出 ， 这 个 框架 是 一 个 图 状 结构 ， 而 基于 AUGraph 将 各 个 
AudioUnit 串 联 起 来 组 成 整个 处 理 的 图 状 结构 是 非常 简单 的 。 第 8 章 也 已 
经 介绍 了 单独 的 压 缠 效 果 器 、 均 衡器 以 及 混 响 效果 器 。 从 更 高 层次 来 
看 ，Input 是 用 麦 元 风 来 收集 人 声 的 ， 或 者 通过 解码 器 来 解码 伴 矢 的， 对 
应 的 AudioUnit 就 是 RemoteIO 和 AudioFilePlayer; 而 Output 是 Speaker 播 放 
Mix 之 后 的 人 声 和 伴奏 ， 或 者 将 人 声 和 伴奏 的 声音 编码 到 本 地 磁盘 上 ， 
对 应 的 AudioUnit 就 是 RemoteIO 和 Generic Output; 至 于 Processor， 对 应 
的 就 是 压缩 效果 器 、 均 衡器 以 及 混 啊 器 对 于 人 声 的 处 理 以 及 将 人 声 和 伴 
奏 的 Mix 操 作 。 所 以 整体 架构 图 如 图 10-8 所 示 。 
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图 10-8 


在 图 10-8 中 ， 除 了 RemoteIO 同 时 作为 Input 和 Output， 以 及 
AudioFilePlayer 作 为 Input 之 外 ， 其 他 所 有 节点 共同 组 成 音频 的 Processor 
部 分 ， 而 其 中 压缩 器 、 均 衡器 和 混 啊 器 这 三 个 效果 器 的 参数 有 很 多 ， 不 
同 的 音乐 风格 “〈 摇 滚 、 流 行 、 舞 曲 等 ) 对 应 的 这 三 个 效果 器 中 的 参数 是 
不 同 的 。 我 们 把 这 些 参数 放置 到 一 个 plist 类 型 的 配置 文件 中 ， 会 让 代码 
有 更 强 的 可 该 性， 并 且 有 利于 将 来 的 扩展 。 


对 于 伴奏 的 解码 角色 AudioFilePlayerUnit， 前 面 已 经 介绍 过 ，iOS 将 











这 个 AudioPlayerUnit 提 供给 开发 者 用 来 解码 伴奏 ， 并 且 可 以 直接 添加 到 
AUGraph 中 。 对 于 图 10-8 中 的 整个 处 理 结构 ， 了 驱动 方 是 Output， 即 
RemoteIO Unit， 这 在 录制 阶段 或 者 在 播放 阶段 都 是 可 以 的 。 但 是 ， 当 处 
于 离线 演 染 场景 时 ，Output 束 不 再 是 RemoteIO 了 ， 因 此 必须 找 一 个 可 以 
用 来 驱动 整个 Graph 的 节点 ， 而 这 个 节点 就 是 GenericOutput 类 型 的 
AudioUnit。 这 个 GenericOutput 的 类 型 是 kAudioUnitType_Output， 子 类 
型 是 kAudioUnitSubType_GenericOutput， 待 给 它 设 置 好 属性 后 ， 将 它 连 
接 到 最 终 的 一 个 节点 上 ， 然 后 局 动 一 个 while 循 环 并 一 直 泻 染 这 个 
AudioUnit 的 数据 ， 这 样 就 可 以 将 整个 数据 流转 起 来 ， 最 终 获得 音频 数 
据 之 后 并 保存 到 文件 中 。 


如 果 需 要 自己 写 一 些 算法 来 处 理 音 频数 据 ， 应 该 如 何 把 数据 集成 到 
这 个 AUGraph 中 去 呢 ? 答 案 是 给 对 应 的 AudioUnit 设 置 InputCallback 的 方 
式 。 在 设置 的 这 个 回调 函数 中 ， 首 先 会 调用 前 一 级 节点 泻 染 数据 的 方 
法 ， 得 到 了 AudioBufferList 类 型 的 ioData 就 可 以 进行 CPU 上 的 运算 ; 最 
后 将 运算 完毕 的 数据 再 放 回 到 ioData 变 量 中 ， 就 可 以 继续 执行 后 续 的 效 
果 右 ， 从 而 满足 这 种 场景 的 需求 。 


如 果 要 将 录制 的 人 声 在 任何 效果 器 起 作用 之 前 保存 下 来 ， 就 要 给 
Compressor 这 个 节点 增加 一 个 InputCallback， 再 在 回调 函数 中 调用 
RemoteIO 这 个 AudioUnit 产 生 数据 ， 得 到 AudioBufferList 类 型 ioData; 然 
后 利用 ExtAudioFile 写 到 本 地 破 盘 文件 中 。 保 存 下 来 的 文件 称 为 干 声 文 
件 。ExtAudioFile 这 个 API 的 使 用 在 前 面 已 经 介绍 过 ， 不 再 效 述 。 


如 果菜 些 CPU 算 法 的 效果 器 要 求 SInt16 的 输入 ， 束 需要 在 这 个 
AUGraph 的 处 理 结构 适当 的 节点 上 插入 AudioConvertUnit， 以 便 将 当前 
格式 〈 如 Float32) 的 数据 转换 为 SInt16 格 式 的 数据 ， 待 这 些 算法 的 效果 
器 执行 完毕 之 后 ， 再 给 AudioConvertUnit 以 将 SInt16 格 式 的 数据 转换 为 
,us 并 发 送 给 后 面 的 效果 器 Node， 以 完成 后 续 的 数据 处 理 操 

















总 体 来 说 ， 在 iOS 平 台 使 用 AUGraph 完 成 音频 处 理 是 比较 简单 的 ， 
后 面 会 将 这 个 系统 集成 到 视频 录制 的 项 目 中 ， 读 者 可 以 到 代码 仓库 中 得 
看 源码 ， 便 于 深刻 理解 。 


10.3 一 套 跨 平台 的 视频 效果 右 的 设计 与 实现 


有 的 读者 可 能 感谢 跨 平 台 的 视频 效果 器 一 定 是 用 C 语 言 或 者 C++ 语 
言 来 编写 并 运行 在 CPU 上 面 的 ， 其 实 不 然 ， 由 于 本 书 的 目标 是 移动 平 
人 台 ， 上 所 以 对 性 能 的 要 求 是 极 高 的 。 鉴 于 之 前 的 基础 ， 不 难得 出 结论 ， 这 
套 跨 平台 的 效果 器 是 基于 OpenGL ES 来 实现 的 。 下 面 让 我 们 从 分 析 应 用 
场景 入 手 ， 一 块 来 设计 和 实现 这 套 跨 平台 的 视频 效果 器 库 。 


先 思 考 视 频 效果 器 库 会 在 哪些 场景 下 使 用 ， 比 如 有 可 能 会 在 用 户 录 
制 视频 界面 的 预览 中 使 用 ， 因 为 用 户 在 预览 的 时 候 可 能 需要 美 颜 效 果 ; 
也 有 可 能 在 后 处 理 阶 段 会 使 用 ， 因 为 用 户 可 能 会 给 视频 加 上 一 些 动 图 或 
者 主题 。 下 面 介 绍 这 两 种 典型 的 场景 。 


对 于 预览 界面 ， 可 以 回想 第 6 章 的 摄像 头 预 筑 项 目 。 无 论 是 iOS 平 台 
还 是 Android 平 台 的 摄像 头 预览 ， 都 是 基于 OpenGL ES 演 染 环境 演 染 摄 
像 头 采集 出 来 的 图 像 ， 而 在 OpenGL ES 中 传递 的 视频 帧 对 象 就 是 一 个 纹 
理 ID， 所 以 可 以 设计 视频 效果 占 库 的 处 理 视频 帧 接口 如 下 : 











void process(int inputTexID, float position, int outputTexID); 





其 中 ， 参 数 imputTexID 代 表 原 始 的 视频 帧 ;参数 position 代 表 这 一 帧 
视频 帧 的 时 间 戳 : 参数 outputTexID 代 表 经 过 视频 效果 器 处 理 完 毕 的 输出 
纹理 ID。 其 实 一 个 接口 就 可 以 满足 预览 场景 下 的 视频 滤 镜 的 处 理 。 接 下 
来 请 读者 思考 这 个 接口 能 售 满 足 后 处 理 场景 下 的 需求 ? 答案 是 肯定 的 ， 
因为 后 处 理 场景 下 的 演 染 环境 也 是 基于 OpenGL ES 来 构建 的 ， 而 在 中 间 
传递 的 也 是 纹理 ID， 所 以 这 个 接口 也 可 以 无 缝 地 接 入 后 处 理 场景 中 去 。 
读者 可 以 参考 第 7 章 中 的 图 7-2， 从 更 高 层次 来 理解 ， 无 论 无 摄像 头 还 是 
解码 器 都 属于 Input， 而 无 论 是 View 还 是 编码 器 都 属于 Output， 至 于 中 间 
要 加 入 的 视频 效果 器 库 则 属于 Processor， 整 体 架 构 如 图 10-9 所 示 。 
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图 10-9 


图 10-9 的 分 析 如 下 : 从 Camera 采 集 一 帧 视频 帧 ， 经 过 Processor 处 
理 ， 到 View 显 示 就 是 预览 过 程 ， 再 到 Encoder 编 码 就 是 录制 视频 的 保存 
过 程 ; 从 Decoder 解 码 一 帧 视频 帧 ， 经 过 Processor 处 理 ， 到 View 显 示 束 
是 视频 编辑 界面 ， 再 到 Encoder 编 码 就 是 后 处 理 的 保存 过 程 ， 所 以 这 个 
架构 可 以 满足 整个 视频 录制 和 后 处 理 的 所 有 场景 。 


既然 视频 效果 器 库 的 处 理 接口 已 经 确定 好 ， 如 何 与 客户 端 代 码 对 接 
就 是 当前 要 解决 的 问题 。 要 在 OpenGL ES 中 将 一 个 纹理 对 象 处 理 之 后 给 
制 到 另外 一 个 纹理 对 象 上 ， 肯 定 需 要 帧 缓存 对 象 ， 即 FBO。 对 于 FBO 的 
用 法 ， 官 方 文档 上 有 一 句 话 是 这 样 说 的 : “频繁 绑 定 FBO 与 解 绑 定 FBO 
的 效率 远 不 如 使 用 同一 个 FBO 在 不 同 的 纹理 ID 上 进行 切换 

CAttach) 。” 所 以 视频 效果 器 库 需要 和 客户 端 代 码 制定 以 下 协议 ， 客 户 
端 代码 需要 在 初始 化 特效 处 理 器 的 时 候 同时 生成 FBO 与 输出 纹理 ID。 注 
意 这 个 初始 化 过 程 必须 在 OpenGL ES 的 线程 中 ， 代 码 如 下 : 




















VideoEffectProcessor *processor,; 

processor = new VideoEffectProcessor(); 

processor->init(width, height); 

glGenFramebuffers(1, &mFBO); 

glGenTextures(1, &outputTexId); 

glBindTexture(GL_TEXTURE 2D, outputTexId); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_ FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_S, GL_CLAMP_TO_EDGE); 

glTexParameteri(GL_TEXTURE_ 2D, GL_TEXTURE_ WRAP_T, GL_CLAMP_TO_EDGE); 

glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA, width, height, 0, GL_RGBA, 
GL_UNSIGNED_BYTE, 0); 

glBindTexture(GL_TEXTURE 2D, 0); 














然后 在 调用 特效 处 理 器 的 处 理 方 法 之 前 绑 定 FBO， 之 后 解 绑 定 
FBO， 代 码 如 下 : 





glBindFramebuffer(GL_ FRAMEBUFFER, mFBO); 
processor->process(inputTexId, position, outputTexId); 
glBindFramebuffer(GL_ FRAMEBUFFER, 0); 





当 用 户 切 换 视频 特效 的 时 候 ， 调 用 特效 处 理 器 的 切换 特效 的 方法 ， 
比如 从 美 颜 特效 切换 到 自然 特效 ， 代 码 如 下 : 





processor->removeAllFilters(); 
int filterId = processor->addFilter(sequenceIn, sequenceOut, filterName); 
processor->setFilterParamValue(filterId, filterkey, filterValue); 





如 上 述 代码 所 示 ， 先 移 除 掉 所 有 的 Filter。 然 后 使 用 filterName 增 加 
一 个 Filter， 并 使 用 参数 sequenceIn 代 表 这 个 Filter 的 开始 作用 时 间 ， 使 用 
参数 sequenceOut 代 表 这 个 Filter 的 结束 作用 时 则 。 其 次 根据 上 一 步 得 到 
的 filterID 给 这 个 Filter 设 置 对 应 的 参数 ， 这 样 就 达到 了 切换 效果 器 的 目 
的 ， 当 然 这 种 切换 是 把 最 细 粒 度 的 接口 都 公布 给 客户 端 代 码 。 事 实 上 ， 
也 可 以 封装 一 些 接口 ， 使 其 功能 更 加 单一 ， 从 而 更 方便 调用 客户 端 ， 具 
体 可 以 参照 代码 仓库 中 的 示例 代码 。 最 后 是 销毁 FBO、 特 效 处 理 器 以 及 
纹理 ID。 注 意 这 段 代 码 也 必须 在 OpenGL ES 的 线程 中 执行 ， 代 码 如 下 : 








if (mFBO) { 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 
glDeleteFramebuffers(1, & mFBO); 

} 

if(processor) { 
processor->dealloc(); 
delete processor,; 
processor = NULL; 


} 
glDeleteTextures(1, &outputTexId); 





将 客 尸 端 代码 的 协议 描述 清楚 之 后 ， 接 下 来 看 看 如 何 设 计 效 末 占 的 
内 部 实现 。 
这 里 要 实现 的 这 个 框架 包含 9.4 节 的 所 有 效果 器 ， 并 且 能 根据 产品 


版 本 的 迭代 不 断 引进 新 的 效果 器 。 此 外 ， 用 户 看 到 的 滤 镜 效果 有 可 能 
含 多 个 效果 器 ， 它 以 一 个 效果 器 链 的 形式 来 完成 一 个 滤 镜 效果 ， 比 如 美 








颜 沽 锐 ， 首 移 要 磨 谈 效果 器， 然后 要 增加 对 比 度 的 效果 器 ， 接 着 是 提 
亮 ， 最 后 可 能 还 要 一 个 色调 曲线 调整 出 清 凑 、 复 古 等 效果 ， 如 图 10-10 
所 示 。 
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所 以 这 里 的 设计 要 符合 这 种 基本 需求 ， 首 先 为 效果 右 建 立 一 个 
Model 类 来 存储 效果 器 的 参数 以 及 作用 时 间 。 在 效果 器 里 ， 与 演 染 
(OpenGL ES 的 绘制 ) 无 关 的 业务 逻辑 计算 都 放 在 这 个 类 里 来 完成 ， 定 
义 ModelFitler 的 基 类 ， 代 码 如 下 : 





class ModelFilter { 
public: 
ModelFilter(); 
ModelFilter(int index, int64 t sequenceIn, int64 t sequenceOut, 
char* filterName); 
virtual ~ModelFilter(); 
virtual bool init(); 
virtual void onRenderpPre(float pos); 
virtual bool isAvailable(float pos); 
void setFilterParamValue(char * paramName, ParamVal value); 
bool getFilterParamValue(string paramName, ParamVal & value); 
int getId() 区 
return id; 
}; 


private: 
int id; 
int64_t sequenceIn,; 
int64_t sequenceOut; 
map<string, ParamVal> mMapParamValue,; 





上 述 代 码 中 ， 定 义 ModelFitler 的 基 类 将 通用 的 属性 和 方法 都 封装 起 
来 ， 并 向 外 暴露 出 几 个 接口 ，init 方 法 是 留 给 子 类 去 做 一 些 资源 初始 化 
的 ， 比 如 视频 主题 效果 器 以 及 贴纸 效果 器 的 解码 器 初始 化 等 行为 ; 
onRenderPre 方 法 是 为 了 某 些 效果 器 能 在 泻 染 本 帧 之 前 根据 时 间 惟 计算 
当前 效果 器 的 进度 ， 比 如 渐变 模糊 效果 器 ; isAvailable 方 法 则 用 于 判定 











当前 效果 需 是 否 在 作用 区 间 内 ， 实 现 方法 主要 就 是 判定 当前 帧 的 时 间 戳 
和 sequenceIn 及 sequenceOut 的 关系 ; getId 方 法 就 是 获得 当前 效果 器 的 唯 
一 标识 。 另 外 ， 还 有 一 个 比较 重要 的 参数 设置 方法 和 获取 参数 的 方法 ， 
这 里 定义 了 一 个 结构 体 ParamVal， 包 含 了 所 有 的 基础 数据 类 型 和 一 个 
Type 类 型 来 记录 当前 属性 是 什么 数据 类 型 ， 最 终 会 将 这 个 ParamVal 作 为 
一 个 Key 的 Value 存 储 到 map 类 型 的 属性 中 ， 以 便 后 续 访 问 ， 结 构 体 
ParamVal 的 展示 如 下 : 











struct ParamVal { 
union { 
void *arbData; 
int intVal; 
double flLtVal 
bool boolVal,; 
Color colorVal,; 
Position2D pos2dVal; 
Position3D pos3dVal; 
} u; 
string strVal,; 
EffectParamType type; 
}; 











这 样 就 可 以 表示 所 有 的 属性 了 ， 而 在 子 类 中 可 以 直接 取出 对 应 的 参 
数 进行 计算 。 然 后 再 建立 一 个 类 TimeLine 把 当前 滤 镜 效果 所 用 到 的 效果 
器 列表 包含 进来 ， 代 码 如 下 : 








class ModelLTimeLine { 
public: 
ModelTimeLine( ); 
virtual ~ModelTimeLine( ); 
void clear(); 
int addFilter(int64 t sequenceIn, int64 t sequenceOut, char* filterName) 
void deleteFilter(int sub); 
bool invokeFilterOonInit(int filterId); 
void setFilterParamValue(int filterId, char * paramName, ParamVal value) 
list<ModelFilter*> getAllFilters(); 
private: 
list<ModelFilter *> filters; 
int filterCount,; 


} 





如 上 述 代 码 所 示 ， 当 调用 addFilter 方 法 加 入 一 个 Filter 的 时 候 ， 首 先 
会 根据 fnterName 找 到 对 应 的 Filter， 再 将 其 实例 化 并 加 入 fiters 这 个 列表 
中 ， 同 时 将 filterCount 加 1， 作 为 这 个 filter 的 ID 并 返回 :然后 客户 端 就 可 
以 根据 这 个 filterId 调 用 setFilterParamValue 方 法 给 filter 设 置 参数 : 最 后 根 
据 这 个 filterId 调 用 invokeFilterOnInit 方 法 ， 进 而 调用 fiter 的 初始 化 方 


法 。 下 面 创 建 所 有 效果 器 真正 处 理 图 像 效 果 的 Effect 类 ， 先 定义 一 个 
BaseVideoEffect 的 基 类 ， 然 后 让 所 有 的 效果 器 都 继承 上 自 这 个 类 ， 并 重 写 
生命 周期 方法 完成 子 类 目 己 的 行为 。 


下 面 分 析 基 类 BaseVideoEffect， 既 然 是 执行 OpenGL ES 的 演 染 操作 
的 封装 ， 那 么 必须 要 加 载 Shader 以 及 Program 的 工具 方法 ， 同 时 也 要 把 
VertexShader 和 FragmentShader 的 内 容 ， 以 及 构造 出 来 的 顶点 坐标 和 
GLProgram 作 为 成 员 变 量 封装 起 来 ， 代 人 码 如 下 : 








protected : 
char* mVertexShader; 
char* mFragmentShader; 
bool mIsInitialized; 
GLuint mGLProgId; 
GLuint mGLVertexCoords; 
GLuint mGLTextureCoords; 
GLint mGLUniformTexture ， 
/** 工具 方法 **/ 
void checkGlError(const char* op); 
GLuint loadProgram(char* pVertexSource, char* pFragmentSource); 
GLuint loadShader(GLenum shaderType, const char* pSource); 

















接 下 来 是 最 重要 的 生命 周期 方法 ， 由 于 子 类 有 可 能 要 在 初始 化 阶段 
初始 化 自己 的 Shader， 找 出 Shader 中 的 独 有 变量 ， 并 分 配 自己 用 到 的 中 
间 纹 理 对 象 等 ， 所 以 需要 重 写 init 方 法 ， 在 泻 染 阶 段 ， 子 类 有 可 能 要 自 
己 泻 染 操作 ， 比 如 要 传递 Uniform 变 量 给 FragmentShader， 所 以 要 重 写 
renderEffect 方 法 ; 在 销毁 阶段 ， 子 类 有 可 能 要 释放 自己 分 配 的 一 些 纹理 
对 象 等 资源 ， 所 以 要 重 写 destroy 方 法 ， 具 体 代 码 如 下 : 





class BaseVideoEffect { 
public: 
BaseVideoEffect(); 
virtual ~BaseVideoEffect(); 
virtual bool init(); 
virtual void renderEffect(int inputTexId, float pos, int outputTexId, 
EffectCallback * filterCcallback); 
virtual void destroy(); 





每 个 子 类 会 完成 相应 的 效果 泻 染 ， 比 如 磨 上 及 效果 侣 、 提 腕 效果 器 、 
视频 主题 效果 器 等。 我 们 来 看 真正 泻 染 视频 时 是 如 何 遍 历 所 有 的 效果 器 
0 从 而 完成 最 终 效果 演 染 工作 。 首 先 来 看 方法 签名 ， 代 人 码 
I 下 : 





void VideoEffectProcessor::process(GLuint sourceTexId, float position, 
GLuint outputTexId); 





接着 根据 当前 帧 的 时 间 惟 ， 过 滤 所 有 可 能 发 生 作 用 的 效果 器 数量 ， 
代码 如 下 : 





list<ModelFilter *> filters = timeLine->getAllFilters(0); 
list<ModelFilter *>::iterator itor = filters.begin(); 
int filterCount = 0; 
for (; itor != filters.end(); itor++) { 

ModelFilter* filter = *itor; 

if (filter->isAvailable(position)) 

filterCount++; 
} 








然后 判断 若 filterCount 是 0， 则 代表 当前 时 间 点 没有 效果 器 起 作用 ， 
此 可 直接 调用 一 个 直通 的 效果 器 将 inputTexId 泻 染 到 outputTexId 上， 
代码 如 下 : 





if(filterCount == 0){ 
directPpassEffect->renderEffect(sourceTexId, outputTexId, NULL); 
} 





如 末 filterCount 不 为 0， 则 要 依次 执行 所 有 的 效果 器 ， 并 要 为 每 个 效 
打 堪 建立 输出 纹理 ID， 以 及 将 前 一 级 效果 露 的 输出 纹理 ID 作为 当前 效果 
器 的 输入 纹理 ID， 将 当前 效果 器 的 输出 纹理 ID 作为 后 一 级 效果 右 的 输入 
纹理 ID， 代 码 如 下 : 





list<ModelFilter *>::iterator itor = filters.begin(); 
int sub = 0; 
GLuint previousTexId = sourceTexId; 
GPUTexture* previousTexture = NULL,; 
for (; itor != filters.end(); itor++) { 
ModelFilter* filter = *itor; 
if (filter->isAvailable(position)) { 
BaseVideoEffect* effect = effectCache-> 
getVideoEffectFromCache(string((*itor)->name)); 
if (effect) { 
filter->onRenderPre(position); 
GLuint currentTexId = outputTexId; 
GPUTexture* texture = NULL; 
if(sub < (filterCount - 1))t{ 
texture = GPUTextureCache::GetIinstance()-> 
fetchTexture(width, height); 
texture->lock(); 
currentTexId = texture->getTexId(); 


effect->renderEffect(previousTexId, position, currentTexId, 
filter->getFiltercallback()); 

previousTexId = currentTexId; 

if(NULL != previousTexture)t{ 
previousTexture->unLock(); 


previousTexture = texture; 


} else { 
LOGE("getVideoEffectFromCache failed"); 


Sub++， 
} 
} 








细心 的 读者 从 这 上 段 代 码 里 可 以 看 到 有 两 个 追求 效率 的 缓存 ， 其 中 一 
个 是 前 面 已 介绍 过 的 纹理 缓存 ， 可 根据 宽 高 到 纹理 缓存 中 取出 对 应 的 纹 
理 对 象 ， 这 大 大 降低 了 频繁 开辟 纹理 与 释放 纹理 的 开销 ; 另外 一 个 就 是 
effect 的 缓存 ， 这 个 缓存 存在 的 意义 是 降低 频繁 创建 和 销 贤 OpenGL 的 
Program 的 开销 。 昌 然 这 两 个 优化 看 起 来 不 太 起 眼 ， 但 是 这 两 个 绥 存 在 
这 里 非常 重要 。 一 个 App 运 行 流畅 与 殖 ， 与 这 些 细节 的 优化 因明 相 关 。 











至 此 ， 视 频 效果 器 库 就 搭建 好 了 。 读 者 可 以 去 查看 代码 仓库 中 的 源 
码 ， 后 续 半 市 会 把 这 个 效果 器 库 集 成 到 系统 中 。 





10.4 将 特效 处 理 库 集成 到 视频 录制 项 目 中 


经 过 前 面 的 学 习 ， 相 信 大 部 分 读者 已 经 掌握 了 各 自 平 台 的 首 频 效果 
名 系统 和 视频 效果 器 系统 ， 接 下 来 要 将 这 两 个 系统 集成 到 我 们 的 App 
中 。 一 个 录制 视频 的 项 目 其 核心 流程 有 如 下 三 个 阶段 。 


第 一 阶段 是 录制 视频 。 用 户 可 以 预 狗 到 摄像 尖 中 的 实时 图 像 ， 交 元 
风 可 以 采集 到 外 界 声 首 ， 并 有 可 能 播放 背景 首 乐 或 者 伴奏 (对 于 唱歌 的 
App) ， 这 个 阶段 最 后 会 生成 一 个 视频 文件 。 


第 二 阶段 是 编辑 阶段 。 用 户 可 以 看 到 上 一 阶段 录制 的 视频 ， 并 且 可 
以 给 视频 增加 一 些 特效 ， 包 括 音频 特效 与 视频 特效 ， 最 终 在 调节 成 一 个 
满意 的 效果 之 后 ， 扩 击 “ 保 存 ” 按 钮 进入 第 三 阶段 。 


第 三 阶段 是 离线 保存 阶段 。 目 动 按照 用 户 选 择 的 特效 以 第 一 阶段 原 
台 视 频 作为 输入 ， 进 行 处 理 并 保存 到 最 终 文 件 中 。 


以 上 三 个 阶段 就 是 整个 视频 录制 项 目的 核心 流程 ， 在 第 二 阶段 与 第 
三 阶段 中 的 视频 解码 部 分 可 以 使 用 10.1 节 讲解 的 硬件 解码 器 来 提升 性 
能 ， 每 个 阶段 都 会 用 到 10.2 节 和 10.3 节 的 效果 器 。 所 以 接 下 来 介绍 如 何 
将 音频 与 视频 效果 器 库 集 成 到 每 一 个 阶段 。 














10.4.1 Android 平台 特效 集成 


本 节 将 介绍 在 Android 平 台 上 如 何 集 成 音频 与 视频 特效 ， 由 于 我 们 
的 实现 都 是 在 Native 层 ， 并 且 这 两 个 特效 库 也 都 是 使 用 C 或 者 C++ 语言 开 
发 的 ， 所 以 集成 工作 也 主要 发 生 在 Native 层 。 


1. 集 成 音频 特效 处 理 库 


下 面 集成 音频 特效 处 理 库 。10.2 节 已 经 详细 介绍 过 音频 特效 库 的 设 
计 ， 其 中 核心 类 就 是 AudioEffectProcessor。 在 第 7 章 的 视频 录制 项 目 
中 ， 对 于 音频 模块 编码 器 线程 ， 在 将 人 声 PCM 队 列 中 的 声音 数据 与 伴奏 
PCM 队 列 中 的 伴奏 数据 进行 Mix 之 后 ， 就 会 进行 编码 。 如 果 读 者 对 这 两 
点 都 有 印象 ， 束 可 以 继续 下 面 的 工作 ， 如 果 和 党 得 有 点 模糊 ， 请 查看 7.3.2 
节 和 10.2 节 相关 的 内 容 。 


大 家 还 记得 7.3.2 节 中 编码 器 适配器 类 中 的 getAudioPacket 方 法 吗 ? 
这 个 方法 会 调用 一 个 processAudio 方 法 。 现 在 建立 一 个 子 类 
AudioProcessEncoderAdapter 来 重 写 这 个 方法 ， 从 而 完成 扩展 的 作用 。 在 
重 写 的 processAudio 方 法 中 ， 就 可 以 调用 AudioEffectProcessor 的 process 
方法 。 子 类 还 需要 重 写 父 类 的 init 方 法 ， 实 现 伴 委 队列 与 音频 效 末 器 的 
初始 化 ， 初 始 化 方法 代码 如 下 : 











void AudioProcessEncoderAdapter : :init(LivePacketPoo1* pcmPpacketPool, int 
audioSampleRate, int audioChannels, int audioBitRate， 
const char* audio codec name, AudioEffect *audioEffect) { 
this->accompanyPacketPool = LiveCcommonPacketPool: :GetInstance()， 
AudioEffectProcessor*audioEffectProcessor = AudioEffectProcessorFactory: 
GetInstance()->buildAudioEffectProcessor(); 
audioEffectProcessor- 
>init(pcmPacketPool, audioSampleRate, audioChannels, 
audioBitRate, audio_ codec_name); 
this->channelRatio = 2.0f; 


} 








以 上 代码 中 将 channelRatio 设 置 为 2.0 是 因为 Android 平 台 录 制 出 的 人 
声 是 单 声 道 的 ， 而 父 类 中 计算 每 一 次 处 理 的 音频 帧 大 小 
(PacketBufferSize〉 时 会 用 到 该 设置 ， 因 为 父 类 是 同时 运行 在 Android 
平台 和 iOS 平 台 的 。 在 iOS 平 台 上 ， 取 出 的 buffer 多 大 就 是 多 大 ; 但 是 在 
Android 平 台 上 ， 由 于 需要 AudioEffectProcessor 将 声音 处 理 成 双 声 道 ， 
此 需要 科 以 channelRaio 的 参数 。 这 里 最 主要 的 参数 当 属 AudioEffect 对 














象 ， 该 对 象 就 是 声音 特效 的 模型 对 象 ， 里 面包 含 整个 声音 处 理 过 程 的 首 
效 参 数 。 下 面 提供 一 个 构造 默认 AudioEffect 对 象 的 方法 ， 代 人 码 如 下 : 








AudioEffect* AudioEffectAdapter::buildDefaultAudioEffect(int channels, int 
audioSampleRate, bool isUnAccom) { 

float accompanyVolume = 1.0f， 

float audioVolume = 1.0f; 

SOXFilterCchainParam* filterChainParam = SOXFilterChainParam:: 
buildDefaultParam( ) ; 

std::list<int>* vocalEffectFilters = new std: :1ist<int>()， 

vocalEffectFilters->push_back(VocalAGCVolumeAdjustEffectFilterType); 

vocalEffectFilters->push_back(CompressorFilterType); 
vocalEffectFilters->push_back(EqualizerFilterType); 
vocalEffectFilters->push_back(ReverbEchoFilterType); 
vocalEffectFilters->push_back(VocalVolumeAdjustFilterType); 
std::list<int>* accompanyEffectFilters = new std::1list<int>(); 
accompanyEffectFilters- 
>push_back(AccompanyAGCVolumeAdjustEffectFilterType); 
accompanyEffectFilters->push_back(AccompanyVolumeAdjustFilterType); 
std::list<int>* mixPostEffectFilters = new std::list<int>(); 
mixPostEffectFilters ->push_back(FadeOutEffectFilterType); 

int recordedTimeMills = 0; 

int totalTimeMills = 0; 

float accompanyAGCVolume = 1.0f; 

float audioAGCVolume = 1.0f; 

float accompanyPitch = 1.0f; 

float outputGain = 1.0f， 

int pitchShiftLevel = 0; 

AudioInfo* audioInfo = new AudioInfo(channels, audioSampleRate, 
recordedTimeMills, totalTimeMills, accompanyAGCVolume, 
audioAGCVolume, accompanyPitch, pitchShiftLevel); 

return new AudioEffect(audioInfo, vocalEffectFilters, 
accompanyEffectFilters, mixPostEffectFilters, accompanyVolume, 
audioVolume, filterChainpParam, outputGain); 





上 述 代 码 展示 了 一 个 完整 的 构造 AudioEffect 对 象 的 过 程 。 首 先 ， 在 
人 声 和 伴奏 的 处 理 融 链 的 最 前 端 添 加 了 一 个 上 自动 增益 控制 的 音量 调节 效 
果 右 ， 在 处 理 器 链 最 后 端 添 加 了 一 个 可 以 让 用 户 自己 调节 音量 的 效果 
器 。 其 中 ， 类 SOXFilterChainParam 会 将 比较 复杂 的 压缩 效果 器 、 均 衡 需 
和 泥 啊 器 的 参数 包含 在 里 面 ， 读 者 可 以 去 代码 仓库 中 找到 源码 ， 此 处 不 
再 展示 。 使 用 上 述 构造 的 AudioEffect 可 以 明显 听 到 混 响 效果 ， 因 此 我 们 
暂时 使 用 上 述 参 数 配 置 集成 到 视频 录制 项 目 中 。 


下 面 进入 真正 的 处 理 过 程 ， 重 写 processAudio 方 法 。 首 先 从 伴奏 队 
列 中 取出 PCM 的 数据 ， 然 后 交 给 音频 处 理 器 去 处 理 ， 并 合并 成 为 父 类 需 
要 放置 到 packetBuffer 的 全 局 变量 中 ， 代 码 如 下 : 











int AudioProcessEncoderAdapter::processAudio() { 


int ret = packetBufferSize,; 
LiveAudioPacket *accompanyPacket = NULL 
if (accompanyPacketPool- 
>getAccompanyPacket(&accompanyPacket，true) < 0) { 
return -1; 


} 
if (NULL != accompanyPacket) { 
int accompanySampleSize = accompanyPacket->size; 
short* accompanySamples = accompanyPacket->buffer ， 
long frameNum = accompanyPacket->frameNum; 
audioEffectProcessor->process(packetBuffer, packetBufferSize, 
accompanySamples, accompanySampleSize, frameNum); 
delete accompanyPacket; 
accompanyPacket = NULL， 


return ret; 


} 





使 用 这 个 方法 的 时 候 ， 父 类 已 经 把 人 声 从 人 声 队列 中 取出 来 ， 并 放 
在 分 配 了 2 倍 大 小 空间 的 packetBuffer 的 前 半 部 分 ， 进 入 这 个 类 之 后 ， 首 
先 从 伴奏 的 队列 中 取出 伴奏 PCM 的 数据 ， 然 后 将 这 两 轨 音 频 交 给 音频 效 
果 处 理 器 进行 处 理 ， 处 理 之 后 的 结果 放 入 packetBuffer 中 ， 父 类 会 继续 
是。 下 来 编码 的 操作 。 最 终 会 在 destroy 方 法 中 销毁 相应 的 资源 ， 代 码 
下 : 














void AudioProcessEncoderAdapter : :destroy(){ 
accompanyPacketPoo1->abortAccompanyPacketQueue( ) ， 
AudioEncoderAdapter: :destroy() ; 
accompanyPacketPoo1->destoryAccompanyPacketQueue( ) ， 
if (NULL != audioEffectProcessor) { 
audioEffectProcessor->destroy(); 
delete audioEffectProcessor; 
audioEffectProcessor = NULL; 
} 
} 





从 以 上 代码 中 可 以 看 到 ， 首 先 丢 弃 了 伴奏 的 队列 ， 以 免 编码 线程 会 
被 阻塞 在 processAudio 方 法 中 ;然后 调用 父 类 的 destroy 方 法 ， 父 类 的 这 
个 方法 会 停止 编码 线程 ， 再 销毁 伴奏 的 PCM 队 列 ， 最 终 销 毁 我 们 自己 创 
建 的 音频 效果 处 理 器 。 

这 样 就 将 音频 效果 处 理 器 集成 到 我 们 的 系统 中 了 ， 是 不 是 很 简单 ? 
在 编辑 页 面 〈 及 视频 播放 器 中 ) 如 何 集成 音频 效果 处 理 器 以 及 在 离线 保 
存 中 如 何 集成 ， 读 者 可 以 结合 代码 仓库 中 的 源码 部 分 加 深 了 解 。 


2. 集 成 视频 特效 处 理 库 





下 面 会 将 10.3 节 的 视频 特效 库 集 成 到 第 7 章 的 视频 录制 项 目 中 ， 而 
ee 页 目 中 有 一 个 模块 是 摄像 头 的 预览 与 编码 模块 ， 结 构图 如 图 
10-11 所 示 
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图 10-11 


在 图 10-11 中 ， 摄 像 头 采集 了 图 像 之 后 会 传递 到 类 
MVRecordingController 中 。 而 在 控制 器 中 ， 第 一 步 会 交 由 
PreviewRenderer 处 理 〈 旋 转 、 镜 像 等 操作 ) ， 并 将 这 一 帧 图 像 处 理 成 为 
一 个 RGBA 格 式 的 纹理 ID 第 二 步 则 通过 控制 器 将 这 个 RGBA 格 式 的 纹 
理 ID 演 染 到 View 上 ; 最 后 一 步 将 这 个 RGBA 格 式 的 纹理 ID 交 由 编码 器 进 
行 编码 ， 编 码 成 功 之 后 放 入 编码 器 队列 中 ， 这 就 是 视频 轨 部 分 的 处 理 。 


下 面 要 将 视频 效果 处 理 器 集成 到 PreviewRenderer 这 个 类 中 ， 而 这 个 


集成 过 程 对 于 外 界 的 控制 器 类 来 讲 是 透明 的 。 所 以 改进 之 后 的 
PreviewRenderer 处 理 这 一 帧 图 像 的 流程 如 图 10-12 所 示 。 
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图 10-12 


如 图 10-12 所 示 ， 由 于 摄像 头 采 集 的 纹理 ID 是 OES 格 式 的 ， 而 这 与 
第 10.1 节 中 接触 到 的 硬件 解码 器 解码 的 纹理 格式 是 一 致 的 ， 所 以 可 以 共 
用 copier 的 泻 染 过 程 ， 将 这 个 纹理 做 旋转 和 镜像 ， 最 终 和 输出 到 RGBA 格 
式 的 rotateTexID 中 。 然 后 再 做 一 个 纹理 图 像 的 裁剪 使 其 适 配 界面 View 的 
宽 高 ， 因 为 摄像 头 采集 的 图 像 可 能 是 640x480 的 ， 而 我 们 需要 的 纹理 可 
能 是 640x360 (16 : 9 的 矩形 视频 ) 或 者 是 480x480 (1 : 1 的 方形 视频 ) 
的 ， 最 终 输 出 到 inputTexId 中 。 在 学 习 本 章 之 前 已 介绍 过 如 何 将 这 个 
inputTexId 返 回 给 控制 器 ， 以 进行 后 续 的 演 染 界面 和 执行 编码 流程 。 这 
里 则 是 将 inputTexId 交 由 VideoEffectProcessor 处 理 成 为 outputTexId， 然 后 
和 下 面 来 看 PreviewRenderer 类 中 代码 的 
具体 改动 。 


为 PreviewRenderer 的 初始 化 方法 在 和 演 染 线程 中 ， 所 以 可 直接 在 初 
始 化 方法 中 调用 视频 特效 处 理 器 的 初始 化 方法 ， 代 码 如 下 : 











void RecordingPreviewRenderer::init(int degress, bool isVFlip, 
int texturewidth, int textureHeight, int cameraWidth, int cameraHeig 
// 原 有 代码 逻辑 不 再 展示 
mProcessor = new VideoEffectProcessor(); 
if(mProcessor->init()) { 
mpProcessor->removeAllFilters(); 
filterId = mpProcessor->addFilter (PREVIEW_FILTER _ SEQUENCE_IN, 




















PREVIEW_FILTER_SEQUENCE_OUT， IMAGE_BASE_EFFECT_NAME ) ， 
if(filterId >= 0){ 
mpProcessor->invokeFilterOnReady(filterId); 
} 


} 
} 





从 以 上 代码 可 以 看 到 ， 成 功 初始 化 视频 特效 处 理 器 之 后 ， 会 先 移 除 
所 有 的 效果 器 ， 然 后 增加 一 个 BaseEffect 类 型 的 效果 器 ， 这 个 效果 器 仅 
完成 拷贝 工作 。 由 于 是 在 视频 中 预览 界面 ， 所 以 会 将 sequenceIn 和 
sequenceOut 分 别 设置 为 0O 和 很 大 的 值 ， 最 终 执行 这 个 Filter 的 Init 方 法 。 


接 下 来 看 看 处 理 视频 帧 的 改动 ， 代 码 如 下 : 





void RecordingPreviewRenderer::processFrame(float position) { 
glBindFramebuffer(GL_FRAMEBUFFER, FBO); 
// 原 有 代码 逻辑 不 再 展示 
glViewport(0, 0, texturewidth, textureHeight); 
mpProcessor->process(inputTexId, 0.90, outputTexId); 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 























从 以 上 代码 可 以 看 到 ， 处 理 视频 帧 的 调用 十 分 简单 ， 直 接 及 用 输入 
和 输出 调用 处 理 占 的 处 理 方法 束 可 。 由 于 这 里 不 需要 使 用 时 间 惟 信息 做 
额外 的 操作 ， 所 以 第 二 个 参数 暂时 使 用 0.0 作 为 输入 参数 。 接 下 来 看 看 
如 何 切 换 效果 器 。 以 美 颜 滤 镜 为 例 ， 代 码 如 下 : 





mpProcessor->removeAllFilters(); 

int filterId = mpProcessor->addFilter (PREVIEW_ FILTER SEQUENCE_IN, 
PREVIEW_FILTER SEQUENCE_OUT, BEAUTIFY_FACE_FILTER_NAME ) ， 

mpProcessor->invokeFilterOnReady(filterId); 





最 终 是 销毁 阶段 ， 这 个 阶段 也 需要 在 OpenGL ES 的 线程 中 执行 ， 所 
以 放 在 PreviewRender 的 dealloc 方 法 中 ， 代 码 如 下 : 





void RecordingPreviewRenderer::dealloc(){ 
// 原 有 代码 逻辑 不 再 展示 
if(mProcessor){ 
mpProcessor->dealloc(); 
delete mprocessor; 
mProcessor = NULL; 


} 




















} 








至此， 视频 特效 处 理 需 就 集成 到 了 视频 录制 项 目 中 ， 大 家 可 以 切换 
成 为 美 颜 沽 镜 碍 看 预览 中 的 效果 ， 然 后 继续 录制 视频 ， 并 碍 看 最 终 视 
频 ， 这 样 就 可 以 看 到 目 己 的 皮肤 确实 被 美化 了 。 读 者 可 以 到 代码 仓库 中 
碍 看 整体 工程 的 代码 ， 或 者 直接 运行 本 节 对 应 的 工程 查看 效果 。 














10.4.2 ”iOS 平台 特效 集成 

在 iOS 平 台 集成 这 两 个 特效 处 理 库 要 简单 很 多 ， 一 个 是 因为 OC 开发 
语言 允许 直接 与 C/C++ 的 混 编 ， 另 一 个 是 因为 IDE 提 供 的 便利 性 不 需要 
开发 者 自己 去 写 makefile 文 件 ， 这 样 我 们 的 集成 工作 就 变 得 很 简单 。 
1. 集 成 音频 特效 处 理 库 

音频 特效 处 理 库 的 集成 ， 在 iOS 平 台 上 是 很 简单 的 ， 原 因 如 下 。 在 
第 7 章 的 录制 视频 项 目 中 ， 已 将 iOS 平 台 的 结构 拆 分 得 很 清楚 ，AUGraph 


作为 声音 队列 的 生产 者 ， 编 码 线程 作为 声音 队列 的 消费 者 ，Mux 模 块 负 
员 将 首 频 和 视频 封装 到 文件 中 ， 整 体 结构 如 图 10-13 所 示 。 
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图 10-13 


从 图 10-13 中 可 以 看 到 ， 首 先 将 AUGraph 中 的 ConvertrNode 将 
Float32 格 式 转 换 为 SInt16 格 式 的 AudioUnit) 设置 为 RenderCallback， 在 
RenderCallback 方 法 的 实现 中 取出 PCM 数 据 ， 然后 将 数据 封装 为 
AudioPacket 的 数据 结构 放 入 PCM 的 队列 中 ， 再 经 由 编码 器 线程 从 这 个 
队列 中 取出 PCM 数 据 ， 编 但 之 后 封装 为 AAC 的 Packet， 并 存 入 AAC 的 队 
列 中 ， 最 后 由 Muxer 线 程 从 AAC 队 列 中 取出 进行 封装 ， 使 其 成 为 MP4 并 
写 入 本 地 磁盘 中 。 在 10.2 节 中 ， 集 成 入 压缩 效果 器 、 均 衡 左 和 混 啊 效果 
器 之 后 ， 整 个 AUGraph 已 经 成 为 图 10-8 所 示 的 结构 ， 所 以 集成 音频 效果 


器 仅 在 AUGraph 这 个 模块 进行 了 变换 ， 并 没有 影响 之 后 所 有 的 流程 。 
此 ， 对 于 PCM 队 列 来 讲 ， 也 仅仅 改变 了 生产 者 的 结构 ; 而 对 于 消费 者 及 
其 他 模块 来 说 ， 是 没有 任何 侵入 式 影响 的 。 也 就 是 说 ， 这 个 PCM 队 列 作 
为 一 个 接口 将 整个 系统 拆 分 开 ， 达 到 了 低 耦 合 的 目的 。 有 具体 的 集成 代 
码 ， 其 实 就 是 将 10.2 节 中 的 AUGraph 蔡 换 过 来 。 


在 编辑 (预览 ) 阶段 的 流程 ， 也 更 改 了 对 应 的 AUGraph， 即 在 中 间 
增加 压 绾 效果 器 、 均 衡器 以 及 混 啊 效果 器 ， 只 不 过 这 个 阶段 的 AUGraph 
的 人 声 输 入 不 再 是 RemoteIO 这 个 AudioUnit， 而 应 该 通过 AudioFilePlayer 
这 个 AudioUnit 来 解码 一 个 已 经 存在 的 人 声 文 件 ， 经 过 处 理 之 后 ， 最 终 
和 当前 伴奏 解码 的 AudioFilePlayer 这 个 AudioUnit 进 行 Mix， 再 输送 给 
RemoteIO 并 播放 给 用 户 听 ， 而 RemoteIO 就 是 这 个 AUGraph 的 驱动 源 。 
整个 流程 在 离线 保存 阶段 也 是 一 样 的 ， 只 不 过 驱动 源 不 一 样 ， 这 一 点 在 
10.2 节 有 详细 讲解 ， 这 里 不 再 袭 述 。 读 者 可 以 参考 代码 仓库 中 的 源码 进 
行 分 析 ， 便 于 深入 理解 。 


2. 集 成 视频 特效 处 理 库 


下 面 将 视频 特效 处 理 吉 集成 入 视频 录制 项 目 中 ， 移 来 回顾 第 7 章 中 
视频 录制 项 目 中 的 视频 轨 是 如 何 处 理 的 ? 


如 图 10-14 所 示 ， 首 先 利用 系统 将 开发 者 提供 的 Camera 采 集 一 帧 
YUV 格 式 的 图 像 ， 然 后 进入 VideoCamera 这 个 节点 ， 这 个 节点 会 将 
CMSampleBuffer 中 的 YUV 格 式 的 数据 转换 为 一 个 RGBA 的 纹理 ID。 并 将 
其 分 为 两 个 分 支 ， 其 中 一 条 支 路 到 ImageView 这 个 节点 ， 这 个 节点 会 把 
输入 的 纹理 ID 泻 染 到 一 个 UIView 上 ， 最 终 让 用 户 预 览 到 图 像 ， 另 外 一 
条 文 路 到 VideoEncoder 这 个 节点 ， 这 个 节点 会 把 输入 的 纹理 ID 编码 成 为 
H264 的 数据 ， 再 封装 为 我 们 自己 的 VideoPacket 的 结构 体 对 象 并 放 入 视 
频 编 码 队 列 中 ， 之 后 再 由 Muxer 模 块 取出 进行 封装 ， 并 最 终 写 入 位 可 文 
件 。 这 个 过 程 中 重点 来 看 中 间 处 理 纹理 ID 的 三 个 节点 ，10.3 节 讲解 的 视 
频 特 效 处 理 器 的 输入 和 输出 都 是 一 个 RGBA 格 式 的 纹理 ID， 而 将 它 封 装 
为 一 个 节点 并 插入 VideoCamera 节 点 之 后 、ImageView 和 VideoEncoder 节 
点 之 前 ， 是 最 合理 的 。 所 以 集成 入 视频 特效 处 理 器 之 后 ， 我 们 只 展示 中 
间 的 结构 图 ， 如 图 10-15 所 示 。 
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图 10-14 
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图 10-15 


下 面 介 绍 如 何 封 装 一 个 节点 ， 以 及 如 何 将 视频 特效 处 理 器 集成 进 
来 。 首 先 ， 新 建 一 个 类 ELImageVideoFilter， 由 于 这 个 节点 要 输出 一 个 
outputTexId， 所 以 要 继承 自 ELImageOutput， 并 且 这 个 节点 还 要 依靠 
VideoCamera 节 点 提供 输入 ， 因 此 要 实现 ELImageInput 这 个 Protocol。 最 
终 ， 这 个 新 建 类 的 接口 文件 声明 如 下 : 





@interface ELImageVideoFilter : ELImageOutput<ELImageInput> 
-(void)switchFilter:(ELVideoFiltersType)filterType; 


Q@end 





从 以 上 代码 可 以 看 到 ，ELImageVideoFilter 类 还 有 一 个 公有 的 方 
法 ， 这 个 方法 是 用 来 切换 视频 滤 镜 的 。 接 下 来 将 类 的 实现 文件 由 “.m” 的 
后 级 名 改 为 “.mm” 的 后 级 名 ， 因 为 视频 特效 处 理 库 是 一 套用 C++ 语 言 实 
现 的 库 ， 而 在 OC 中 要 想 调用 C++ 的 库 ， 束 得 将 实现 文件 的 后 缀 名 改 
为 “mm”。 我 们 重 写 父 类 中 生命 周期 方法 ， 首 先 接受 上 一 级 节点 处 理 完 
毕 的 纹理 有 DD 的 方法 ， 这 个 方法 需要 将 输入 纹理 ID 保 存 下 来 ， 作 为 整个 泻 
染 过 程 的 输入 纹理 ID， 代 码 如 下 : 














- (void)setInputTexture:(ELImageTextureFrame *)textureFrame; 


_inputFrameTexture = textureFrame; 








第 二 个 生命 周期 方法 就 是 演 染 视频 帧 方法 ， 这 个 方法 就 是 当 新 的 一 
帧 需要 泻 染 的 时 候 由 上 一 级 市 点 进 行 调用 ， 这 个 方法 是 在 OpenGL ES 的 
线程 中 执行 的 ， 因 此 它 可 以 实例 化 并 初始 化 视频 特效 处 理 器 ， 代 码 如 
下 : 








- (void)newFrameReadyAtTime: (CMTime)frameTime timimgInfo: 
(CMSampleTimingInfo) 
timimgInfo; 


if(!_processor)t 
_processor = new VideoEffectProcessor(); 
_processor->init(); 
_processor->removeAllFilters(); 
int filterId = _processor->addFilter(PREVIEW_FILTER_ SEQUENCE_IN, 
PREVIEW_FILTER_SEQUENCE_OUT， IMAGE_BASE_EFFECT_NAME ) ， 
if(filterId >= 0){ 
_processor->invokeFilterOonReady(filterId); 


[[self outputFrameTexture] activateFramebuffer]; 
_processor->process([_inputFrameTexture texture], 0.0, [[self 
outputFrameTexture] texture] ); 
for (id<ELImageInput> currentTarget in targets)t{ 
[currentTarget setInputTexture:_processedFrameTexture]; 
[currentTarget newFrameReadyAtTime:frameTime timimgInfo:timimgInfo]; 
} 
} 





从 以 上 代码 中 可 以 看 到 ， 首 先 会 对 Processor 进 行 判 晰 ， 如 果 没 有 初 
始 化 ， 就 进行 初始 化 ; 然后 在 初始 化 过 程 中 默认 为 视频 特效 处 理 器 加 入 
一 个 直通 的 效果 器 ， 即 BaseEffect， 作 用 的 开始 时 间 为 定义 的 一 个 宏 ， 
是 0， 结 束 时 间 也 是 定义 的 一 个 宏 ， 约 为 10 个 小 时 ， 而 在 录制 视频 阶段 





不 会 根据 时 间 惟 做 特殊 处 理 ， 所 以 第 二 个 参数 传递 的 时 间 惟 为 0.0。 下 
面 绑 定 输出 到 纹理 对 象 的 FBO 上 ， 之 后 调用 处 理 器 将 输入 纹理 对 象 泻 染 
到 输出 纹理 对 象 上 ， 最 后 将 输出 纹理 对 象 设置 为 下 一 级 节点 输入 纹理 对 
象 并 调用 下 一 级 节点 的 泻 染 方法 。 


还 记得 在 接口 文件 中 声明 了 一 个 公有 方法 吗 ? 是 的 ， 我 们 现在 要 来 
实现 这 个 方法 ， 即 切换 视频 滤 镜 的 方法 ， 因 为 切换 滤 镜 的 方法 有 可 能 在 
主线 程 中 调用 。 为 了 保证 线程 安全 ， 在 这 个 方法 中 仅 设 置 一 个 变量 标 
ee 并 把 要 更 改 的 滤 镜 类 型 保存 到 全 局 变量 

， 代 但 如 下 : 











-(void)switchFilter:(ELVideoFiltersType)filterType 


if(filterType != curELVideoFiltersType)t{ 
curELVideoFiltersType = filterType; 
isVideoFilterChanged = true; 
} 
} 





具体 的 更 改 滤 镜 的 行为 ， 需 要 等 到 下 一 帧 洽 染 的 时 候 再 去 执行 ， 所 
以 在 newFrameAtTime 函 数 的 最 后 执行 如 下 代码 : 





if(isVideoFilterChanged)t{ 
self.processor->removeAllFilters(); 
int filterId = -1; 
Switch (filterType) { 
case PREVIEW BEAUTY_FACE.: 
filterId = self .processor- 
>addFilter (PREVIEW_FILTER_ SEQUENCE_IN, 
PREVIEW_FILTER_SEQUENCE_OUT， BEAUTIFY_FACE_FILTER_ NAME); 
break; 
case PREVIEW_ NONE: 
default: 
filterId = self .processor- 
>addFilter (PREVIEW_FILTER_ SEQUENCE_IN, 
PREVIEW_FILTER_ SEQUENCE_OUT, IMAGE_BASE_EFFECT_NAME ) ， 
break; 


} 
if(filterId >= 0){ 
self.processor->invokeFilterOnReady(filterId); 


isVideoFilterChanged = false; 


} 





从 以 上 代码 中 可 以 看 到 ， 会 先 移 除 之 前 所 有 的 效果 占 ;， 然 后 按照 交 
果 髓 类 型 添加 到 对 应 的 效果 器 ;最 后 销毁 资源 ， 但 不 要 把 销毁 资源 的 代 








人 码 放 入 dealloc 方 法 中 ， 因 为 这 个 方法 的 调用 也 必须 在 OpenGL ES 的 线程 
中 执行 ， 而 系统 自动 调用 的 dealloc 方 法 却 不 是 在 OpenGL ES 线程 中 调用 
的 ， 所 以 destroy 方 法 的 代码 如 下 : 





if(_processor) { 
_processor->dealloc(); 
delete _processor; 
_processor = NULL; 


} 











至 此 ，VideoFilter 这 个 节点 就 构建 完毕 。 这 个 节点 完成 的 效果 如 
下 : 接受 上 一 级 节点 的 输出 纹理 ID 作为 输入 纹理 ID; 然后 调用 视频 特效 
处 理 露 按照 设 定 的 滤 镜 效果 把 输入 纹理 ID 这 染 到 一 个 新 的 纹理 ID 上 ， 再 
把 新 的 纹理 ID 作为 输出 纹理 ID 分 别 设置 给 ImageView 节 点 和 
VideoEncoder 市 点 ， 这 样 用 户 就 可 以 分 别 在 预览 界面 以 及 最 终生 成 的 文 
件 上 看 到 添加 了 滤 镜 效果 的 视频 轨 。 


为 了 添加 视频 滤 镜 功能 ， 这 里 仪 引 入 一 个 库 ， 然 后 添加 一 个 节点 就 
完成 。 这 比较 符合 [ 开 闭 原则 ] 的 设计 原则 。 而 这 都 是 因为 最 初 设计 这 一 
套 系统 时 抽取 了 ELImageOutput 这 个 父 类 ， 并 建立 了 ELImageInput 这 个 
Protocol， 这 其 实 都 是 高 度 抽象 的 结果 。 也 正 因为 这 个 抽象 过 程 ， 才 使 
得 我 们 现在 集成 一 个 新 的 节点 这 么 简单 方便 。 有 的 读者 可 能 会 说 ， 组 织 
节点 的 地 方 是 需要 改动 代码 的 ， 是 的 ， 目 前 我 们 的 系统 是 需要 在 组 织 节 
点 的 地 方 改动 代码 ， 但 是 我 们 完全 可 以 将 组 织 节 点 的 部 分 改 为 读 取 配置 
文件 的 方式 来 组 织 节 点 ， 这 样 又 可 以 将 这 部 分 对 代码 的 改动 给 剥离 出 
去 。 因 此 ， 对 于 整个 系统 的 架构 与 设计 ， 笔 者 建议 读者 可 以 多 思考 ， 多 
总 结 ， 慢 慢 就 可 以 将 一 个 系统 设计 得 越 来 越 好 。 


人 至此， 在 iOS 平 台中 ， 已 成 功 将 音频 效果 处 理 器 和 视频 效果 处 理 需 
集成 到 了 视频 录制 项 目 中 ， 而 整个 集成 过 程 也 比较 简单 ， 读 者 可 以 去 代 
码 仓库 中 找到 本 市 对 应 的 源码 ， 然 后 尝试 录制 一 个 视频 ， 再 将 这 个 视频 
0 
，\ 入 o 




















10.5 本章 小 结 


至 此 ， 本 书 的 第 二 部 分 惑 结束 了 ， 不 得 不 说 这 一 部 分 对 于 音 视 频 的 
开发 多 么 重要 ， 因 此 用 了 很 大 篇 幅 介 绍 这 些 内 容 。 笔 者 希望 读者 在 接受 
新 知识 的 同时 ， 也 要 提高 自己 的 系统 架构 能 力 。 本 章 将 音频 与 视频 的 特 
效 处 理 库 集 成 到 系统 中 的 操作 之 所 以 这 么 简单 ， 是 因为 第 7 章 中 将 模块 
拆 分 得 比较 合理 ， 使 用 了 面向 接口 编程 〈 抽 象 基 类 ELImageOutput 与 协 
议 ELImageInput) ， 将 整个 系统 同 更 高 层次 进行 了 抽象 (抽象 出 Input、 
Processor、Output 等 各 个 模块 )。 相 信 随 着 本 书 的 进行 ， 读 者 也 会 慢 慢 
理解 一 个 好 的 系统 染 构 给 大 家 带 来 的 好 处 。 


前 面 所 构建 出 的 系统 在 首 视 频 领域 剃 被 大 家 称 为 录 播 ， 而 在 接 下 来 
的 章节 中 ， 笔 者 会 继续 带领 大 家 进入 直播 领域 ， 看 看 如 何 将 系统 集成 到 
直播 领域 ， 并 且 会 一 步 步 分 析 和 直播 领域 与 录 播 领域 的 差别 是 什么 ， 以 及 
应 该 做 些 什么 就 可 以 使 得 系统 运行 在 直播 领域 。 在 一 个 直播 App 中 ， 视 
频 的 录制 端 称 为 推 流 痢 ， 而 播放 费 问 称 为 拉 流 端 ， 人 磁盘 的 VO 则 变 为 网 
络 的 IJO。 一 般 来 说 ， 在 直播 领域 会 使 用 第 三 方 的 CDN 三 丙 作 为 中 间 的 
流 媒 体 服务 器 ， 这 样 台 可 以 以 更 快 的 速度 和 更 便宜 的 带宽 给 用 户 带 来 更 
好 的 体验 。 但 是 一 个 直播 App 并 不 是 只 有 了 这 三 个 角色 就 可 以 运行 起 来 
的 ， 这 三 个 角色 只 是 最 基础 、 最 核心 的 部 分 。 另 外 ， 还 有 聊天 系统 、 礼 
物 系统 等 ， 这 些 系统 的 构建 在 接 下 来 的 章节 中 都 会 有 介绍 ， 但 是 我 们 的 
重点 还 是 会 放 在 推 流 端 和 拉 流 剖 的 网 络 适 配 上 。 让 我 们 一 起 进入 直播 领 
域 ， 看 看 一 个 直播 App 是 如 何 构建 起 来 的 。 























第 11 章 ”直播 应 用 的 构建 


本 章 将 会 带领 大 家 走 进 直播 领域 。 直 播 的 实现 思路 与 大 多 数 产 品 的 
实现 思路 一 样 ， 首 先进 行 场景 分 析 ， 然 后 在 分 析 场 景 的 过 程 中 拆 分 直播 
系统 的 各 个 模块 ， 并 进行 大 致 的 技术 选 型 ， 再 依次 介绍 各 模块 的 具体 实 
现 手 段 及 其 优 缺 点 。 


11.1 直播 场景 分 析 


在 直播 领域 ， 大 致 可 以 分 为 两 种 类 型 的 直播 : 一 种 是 非 交 互 式 直 
播 ， 男 外 一 种 是 交互 式 直 播 。 非 交互 式 直 播 的 典型 场景 有 : 2015 年 9 月 
的 反 法 西 斯 阅兵 直播 ， 某 些 体 育 直 播 等 。 这 些 直 播 因 为 其 交互 性 不 强 ， 
所 以 允许 延迟 《从 视频 中 主体 发 生 实际 的 行为 到 该 行为 被 用 户 看 到 的 时 
间 ) 10s 或 者 10s 以 上 。 非 交互 式 直 播 的 特点 是 : 源 《〈 像 阅兵 直播 、NBA 
直播 、 欧 冠 直播 等 ) 比较 少 ， 适 合 做 多 路 转 码 (用 户 可 以 根据 网 络 条 件 
观看 超 清 、 高 清 、 标 清 等 多 路 视频 ) 。 交 互 式 直 播 的 典型 场景 有 : 秀 场 
直播 、 游 戏 直 播 等 。 这 些 直 播 因 为 对 主播 和 观众 的 互动 性 要 求 比较 高 ， 
所 以 要 求 延 迟 在 5s 以 内 。 交 互 式 直播 的 特点 是 : 源 〈 像 美女 主播 、 游 戏 
ee 











直播 中 ， 传 输 的 介质 是 网 络 ， 而 网 络 中 传播 视频 或 者 音频 时 需要 使 
用 对 应 的 协议 ， 目 前 适合 直播 场景 的 常用 协议 有 如 下 几 种 。 


.RTMP 协 议 : 长 连接 ， 低 延 时 (3s 左右) ， 网 络 穿 透 性 差 。 


HLS 协 议 ， HITP 的 流 媒体 协议 ， 高 延 时 《10s 以 上 ) ， 跨 平台 性 较 
好 。 


.HDL 协议 : RTMP 协 议 的 升级 版 ， 低 延 时 (2s 左右) ， 网 络 穿 透 性 
好 。 


:RTP 协议 : 低 延 时 (1s 以 内 )〉 ， 默 认 使 用 UDP 作为 传输 协议 。 


因此 ， 我 们 应 该 按照 目 己 的 场景 来 选择 协议 ， 如 果 是 非 交 互 式 场 
景 ， 则 选择 HLS 协 议 更 适合 ; 如 果 是 交互 式 场景 ， 则 选择 HDL 协 议 或 者 
RTMP 协 议 较 合 适 。RTP 协 议和 常用 于 视频 会 议 或 直播 的 连 麦 场景 中 ， 不 
直接 用 于 一 对 多 的 直播 场景 中 。 


接 下 来 看 看 交互 式 直 播 场景 下 可 以 拆 分 为 哪些 模块 。 最 基础 、 最 核 
心 的 应 该 是 推 流 系统 、 拉 流 系 统 和 流 媒 体 服 务 器 (Live Server) ， 并 由 
这 三 部 分 共同 组 成 整个 直播 系统 的 主播 端 和 用 户 端 之 则 在 视频 或 者 音频 
内 容 上 的 交互 。 整 体 流程 是 主播 使 用 推 流 系统 将 采集 的 视频 和 首 频 进行 
编码 ， 并 最 终 发 送 到 流 媒 体 服务 器 上 ;用户 端 使 用 拉 流 系统 将 流 媒 体 服 











务 器 上 的 视频 资源 进行 播放 。 整 个 过 程 是 一 种 发 布 者 /订阅 者 
(Publisher/Subscriber〉 的 模式 ， 如 图 11-1 所 示 。 


推 流 系 统 Y 流 系统 
Http Server 

礼物 系统 聊天 系统 
Live Server 

社交 系统 支付 系统 
图 11-1 


作为 一 个 完整 的 产品 ， 仪 有 这 三 个 模块 是 远 远 不 够 的 ， 最 直观 的 ， 
缺少 礼物 系统 《〈 可 让 观众 给 喜欢 的 主播 送礼 物 ) ， 礼 物 系统 可 以 为 App 
提供 礼物 动 效 的 展示 等 ， 既 然 观众 能 送礼 物 给 用 户 ， 葡 要 有 充值 功能 ， 
所 以 必须 有 支付 系统 来 提供 用 户 充 值 、 主 播 提现 等 功能 。 在 直播 过 程 
中 ， 主 播 想 和 观众 次 话 ， 观 众 在 很 短 时 间 内 就 可 以 在 视频 中 听 到 ， 但 是 
观众 想 和 主播 进行 交流 ， 只 能 靠 聊 天 系统 来 实现 ， 聊 天 系统 是 用 来 建立 
观众 到 主播 的 反馈 通道 。 直 播 这 种 行为 实际 上 是 一 种 社交 行为 ， 而 任何 
一 个 直播 产品 都 应 该 是 一 种 社交 产品 ， 所 以 还 需要 社交 系统 ， 为 观众 和 
主播 提供 长 期 有 效 的 社交 行为 《比如 ， 根 据 关 注 关 系 适 时 推送 “关注 的 
主播 ”开播 了 ， 或 者 展示 关注 主播 的 开播 列表 以 及 视频 回放 列表 等 ) 。 
除了 推 流 系 统 和 拉 流 系统 外 的 四 个 系统 〈 见 图 11-1) ， 部 需要 与 服务 器 
进行 交互 ， 我 们 称 之 为 Http Server， 即 服务 占 模 块 。 综 上 所 述 ， 最 终 整 
体 结构 如 图 11-1 所 示 。 


一 般 情况 下 社交 系统 包括 但 不 限于 以 下 的 功能 : 
第 三 方 登录 (包括 微 博 、 微 信 、QQ 等 ); 
第 三 方 分 享 〈 包 括 微 博 、 微 信 、QQ 等 ); 




















会 已 


手机 号 的 登录 与 绑 定 ; 

-地理 位 置 的 使 用 ; 

-站 内 关系 (关注 与 粉丝 以 及 自己 的 Feed 列 表 ) ; 

-推送 策略 以 及 用 户 问 收 到 推送 之 后 的 跳 转行 为 ; 

后 人 台 系 统 ， 用 于 提供 给 客服 、 运 营 人 员 操 作 榜 单 以 及 推荐 用 户 等 


月 E 。 


11.2 ” 拉 流 播放 大 的 构建 


本 贡 将 基于 视频 播放 峰 来 构建 用 户 端的 拉 流 播放 器 。 我 们 已 在 第 5 
章 详细 讲解 了 播放 堪 的 结构 ， 它 是 使 用 FFmpeg 的 libavformat 模 块 来 处 理 
协议 层 与 解 封 装 层 的 细节 ， 并 使 用 FFmpeg 的 libavcodec 模 块 来 解码 得 到 
2 数据 ， 最 终 使 用 OpenGL ES 演 染 视频 以 及 使 用 对 应 的 API 来 演 染 音 
少 人 。o 


相 较 于 录 播 的 实现 ， 直 播 中 的 拉 流 播放 器 的 使 用 时 长 〈 短 则 几 十 分 
钟 ， 长 则 几 个 小 时 ) 会 更 长 ， 所 占用 的 CPU 资源 《观众 界面 还 会 有 聊天 
的 长 连接 、 动 画 的 展示 等 ) 也 会 更 多 ， 所 以 必须 将 第 10 章 中 讲解 的 硬件 
解码 此 集成 进来 。 再 者 ， 网 络 直 播 中 某 些 主播 由 于 坏 境 光 的 因 系 ， 或 者 
网 络 带宽 的 因 系 ， 导 致 视频 不 是 很 清楚 ， 所 以 要 在 拉 流 播放 器 中 加 入 一 
个 后 处 理 过 程 ， 以 增加 视频 的 清晰 度 。 这 里 以 增加 对 比 度 来 作为 这 个 后 
处 理 过 程 的 实现 ， 当 然 在 实际 生产 过 程 中 ， 可 以 增加 一 些 去 块 滤波 器 、 
锐 化 等 效果 器 。 








11.2.1 Android 平台 播放 器 增加 后 处 理 过 程 


要 想 打 开 网 络 连接 ， 必 须知 道 媒体 源 的 协议 ， 也 要 在 编译 FFmpeg 
的 过 程 中 打开 对 应 的 网 络 协议 ， 比 如 HITP、RTMP 或 者 HLS 等 协议 。 解 
码 器 解码 的 目标 是 纹理 ID， 为 此 还 建立 了 一 个 纹理 对 象 的 循环 队列 用 于 
存储 解码 之 后 的 纹理 对 象 。 整 个 解码 器 模块 的 运行 流程 如 图 11-2 所 示 。 
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图 11-2 


图 11-2 看 起 来 有 点 复杂 ， 下 面 逐 一 解释 。 首 先是 AVSync 模 块 初始 
化 解码 器 的 过 程 ， 解 码 器 会 连接 远程 的 流 媒体 服务 器 ， 如 果 打 开 连 接 失 





败 ， 则 启用 重 试 策略 重 试 几 次 ;如 果 依 然 没 能 成 功 ， 则 提示 给 用 户 ; 如 
果 连 接 成 功 ， 则 开启 Uploader 线 程 ， 即 最 右 侧 杰 色 部 分 。Uploader 线 程 
是 一 个 OpenGL ES 线程 ， 当 解码 器 是 软件 解码 占 实 例 的 时 候 ， 这 个 线程 
的 职责 就 是 将 YUV 数 据 上 传 到 显卡 上 并 成 为 一 个 RGBA 格 式 的 纹理 ID; 
当 解 码 器 是 人 硬件 解码 器 实例 的 时 候 ， 这 个 线程 的 职责 束 是 将 硬件 解码 器 
解码 出 来 的 OES 格 式 的 纹理 ID 转 换 为 RGBA 格 式 的 纹理 ID。 在 实现 
Uploader 这 个 模块 的 过 程 中 ， 要 设 定 一 个 父 类 ， 然 后 对 应 于 两 个 子 类 
(软件 解码 器 与 硬件 解码 器 对 应 的 Uploader) 分 别 完成 各 自 的 职责 。 注 
意 这 里 在 为 这 个 线程 开启 OpenGL ES 上 下 文 的 时 候 ， 需 要 和 演 染 线程 共 
享 上 下 文 环 境 ， 这 样 OpenGL ”ES 的 对 象 在 这 两 个 线程 中 才 可 以 共同 使 
用 。 当 Uploader 线 程 开始 运行 以 后 ， 会 进入 一 个 循环 ， 循 环 一 开始 先 阻 
塞 (wait) 住 ， 等 待 解码 线程 发 送 Signal 指 令 再 去 做 上 传 纹理 操作 ， 之 
人 也 会 先 阻 塞 (wait) 住 ， 周 而 复 始 ， 完 成 整个 纹理 
EE 


成 功 开启 Uploader 线 程 之 后 ， 初 始 化 工作 就 结束 了， 等 到 AVSync 模 
块 中 的 解码 线程 开始 工作 后 ， 解 码 右 才 会 调用 FFmpeg 的 libavformat 模 块 
进行 解析 协议 与 解 封装 (Demuxer) ， 再 调用 具体 实例 (有 可 能 是 软件 
解码 器 ， 也 有 可 能 是 硬件 解码 器 ) 的 解码 方法 。 解 码 成 功 之 后 就 会 给 
Uploader 线 程 发 送 一 个 Signal 指 令 ， 之 后 这 个 解码 线程 就 等 待 Uploader 线 
人 解码 线程 再 继续 运行 ， 如 图 11-2 中 间 部 分 

示 。 


待 Uploader 线 程 接收 到 Signal 指 令 后 ， 了 就 会 执行 上 传 〈 转 换 ) 纹理 
的 工作 ;而 在 转换 成 为 一 个 RGBA 格 式 的 纹理 对 象 后 ， 束 会 调用 回调 函 
数 《〈 在 初始 化 过 程 中 ，AVSync 传 递 过 来 的 回调 函数 ) 来 处 理 这 一 帧 视 
频 帧 ， 并 将 这 一 帧 视频 帧 找 贝 到 循环 纹理 队列 中 。 虽 然 将 纹理 对 象 找 贝 
到 循环 纹理 队列 中 的 行为 是 在 Uploader 线 程 中 实现 的 ， 但 是 在 AVSync 的 
相关 代码 中 ， 这 也 是 为 了 降低 各 个 模块 的 耦合 度 。 所 以 这 里 要 在 
AVSync 模 块 中 加 入 视频 特效 处 理 器 ， 每 当 解 码 器 中 解码 一 帧 纹理 ID 
时 ， 就 交 给 视频 特效 处 理 器 进行 处 理 ， 待 处 理 完毕 之 后 再 将 这 一 帧 纹理 
对 象 加 入 循环 纹理 队列 中 。 当 然 ， 这 里 仅 使 用 增加 对 比 度 作 为 特效 处 理 
器 中 的 作用 效果 器 ， 读 者 也 可 以 将 去 块 滤波 器 以 及 锐 化 效果 器 加 入 特效 
处 理 器 中， 以 增加 后 处 理 的 效果 。 


要 实现 上 述 功 能 ， 需 要 新 建 一 个 LiveShowAVSync 的 类 ， 继 承 自 类 
AVSync， 并 重 写 父 类 中 的 三 个 回调 方法 。 第 一 个 是 当 Uploader 线 程 初始 

















化 成 功 之 后 的 回调 方法 ， 代 码 如 下 : 





void LiveShowAVSynchronizer::OnInitFromUploaderGLContext(EGLCore* eglCore, 
int videoFramewidth, int videoFrameHeight) { 
videoEffectProcessor = new VideoEffectProcessor(); 
videoEffectProcessor->init(); 
int filterId = videoEffectProcessor- 
>addFilter(©0, 1000000 * 10 * 60 * 60, 
PLAYER_CONTRAST_FILTER_NAME); 
if(filterId >= 0){ 
videoEffectProcessor->invokeFilterOnReady(filterId); 


} 

glGenTextures(1, &mOutputTexId); 

glBindTexture(GL_ TEXTURE_ 2D, mOutputTexId); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_ WRAP_S, GL_CLAMP_TO_EDGE); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_ WRAP_T, GL_CLAMP_TO_EDGE); 

glTexImage2D(GL_TEXTURE_2D, ©, GL_RGBA, videoFramewWidth, 
videoFrameHeight, 0, GL_RGBA, GL_UNSIGNED_ BYTE, 0); 

glBindTexture(GL_TEXTURE_ 2D, 0); 

AVSynchronizer: :OnInitFromUploaderGLContext(eglCore, 
videoFrameWidth, videoFrameHeight); 











如 上 述 代码 所 示 ， 由 于 这 个 回调 函数 的 调用 发 生 在 Uploader 线 程 
中 ， 并 且 Uploader 线 程 已 经 准备 好 了 OpenGL ”ES 上 下 文 ， 也 绑 定 好 了 
OpenGL ES 上 下 文 ， 所 以 这 里 就 是 初始 化 特效 处 理 器 的 好 时 机 。 同 时 ， 
还 要 初始 化 一 个 输出 纹理 ID， 因 为 经 过 特效 处 理 器 处 理 后 要 有 一 个 纹理 
ID 作为 输出 ， 我 们 设 定 mOutputTexId 来 接受 处 理 结束 之 后 的 纹理 ID。 


2 接着 来 看 如 何 处 理 一 帧 视频 帧 ， 重 写 父 类 的 处 理 视 频 帧 的 方法 ， 代 
码 如 下 : 








void LiveShowAVSynchronizer::processVideoFrame(GLuint inputTexId, int width， 
int height, float position)t{ 
GLuint outputTexId = inputTexId; 
if(videoEffectProcessor)t{ 
videoEffectProcessor->process(inputTexId, position, mOutputTexId); 
outputTexId = mOutputTexId; 


AVSynchronizer::processVideoFrame(outputTexId, width, height, position); 





上 述 代 码 也 很 简单 ， 如 果 视 频 特 效 处 理 圳 存在 ， 束 将 处 理 融 处 理 过 
的 纹理 ID (mOutputTexId〉 交 由 父 类 复制 到 循环 纹理 队列 中 去 。 最 后 一 
个 需要 重 写 的 方法 是 销毁 资源 的 方法 ， 代 码 如 下 : 





void LiveShowAVSynchronizer::onDestroyFromUploaderGLContext() { 
if (NULL != videoEffectProcessor) { 
videoEffectProcessor->dealloc( ); 
delete videoEffectProcessor; 
VideoEffectProcessor = NULL; 


} 
if (-1 != outputTexId) { 
glDeleteTextures(1, &outputTexId); 


AVSynchronizer: :onDestroyFromUploaderGLContext(); 





为 这 个 方法 的 调用 也 是 发 生 在 Uploader 线 程 中 的 ， 所 以 也 符合 视 
频 特 效 处 理 器 的 销毁 方法 需求 ， 同 时 ， 还 要 删除 分 配 的 这 个 输出 纹理 
ID， 最 后 调用 父 类 的 销毁 资源 方法 。 


至 此 ， 后 处 理 过 程 束 集成 到 了 播放 器 中 ， 在 网 络 状 态 下 这 对 视频 的 
清晰 度 也 会 有 一 个 增强 的 效果 。 虽 然 这 里 只 新 增 了 类 而 没有 修改 旧 的 代 
码 ， 但 也 达到 了 增加 功能 的 效果 ， 可 见 ， 最 初 有 一 个 合理 的 架构 设计 多 
么 重要 。 


除了 新 增 这 个 功能 外 ， 我 们 还 有 比较 重要 的 适 配 工作 要 做 。 读 者 可 
个 还 记得 在 AVSync 模 块 里 定义 了 三 个 宏 用 来 控制 解码 线程 的 局 动 和 和 暂 
停 ， 以 及 音 视 频 对 齐全 略 ?之 前 定义 的 宏 如 下 : 














#define LOCAL_MIN_BUFFERED_DURATION 0.5 
#define LOCAL_MAX_BUFFERED_DURATION 0.8 
#define LOCAL_AV_SYNC_MAX_TIME_DIFF 0.05 








这 三 个 值 放 在 网 络 环境 中 惑 需 要 做 适 配 ， 人 否则 会 出 现 视频 的 卡 顿 ， 
并 且 会 因为 对 齐 而 影响 视频 的 整体 播放 ， 更 改 之 后 的 三 个 宏 定义 如 下 : 











#define NETWORK_MIN_BUFFERED_DURATION 
#define NETWORK_ MAX_ BUFFERED_DURATION 
#define NETWORK_AV_SYNC MAX_TIME_ DIFF 


OD 
WOO 








使 用 这 三 个 宏 给 全 局 变量 赋值 ， 需 要 重 写 父 类 的 initMeta 方 法 ， 代 
码 如 下 : 





void LiveShowAVSynchronizer::initMeta() { 
this->maxBufferedDuration = NETWORK_ MAX_BUFFERED_DURATION; 
this->minBufferedDuration = NETWORK_MIN_BUFFERED_DURATION; 
this->syncMaxTimeDiff = NETWORK_AV_SYNC_ MAX_TIME_DIFF; 





} 


这 样 ， 本 地 视频 播放 强制 作 好 了 播放 网 络 视频 的 适 配 ， 拉 流 播 放 右 
也 可 以 使 用 ， 读 者 可 以 参考 代码 仓库 中 的 源码 ， 以 便 加 深 理 解 。 


11.2.2 ”iOS 平台 播放 器 增加 后 处 理 过 程 

在 iOS 平 台 增 加 了 硬件 解码 器 的 支持 后 ， 并 没有 像 Android 平 台 一 样 
在 解码 器 端 进行 非常 大 的 改造 ， 而 是 在 泻 染 端 进行 了 适 配 ， 改 动 之 后 的 
结构 如 图 11-3 所 示 。 
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图 11-3 中 ，VideoPlayerController 这 个 调度 右 会 携带 是 否 使 用 硬件 解 
码 器 的 参数 来 初始 化 VideoOutput， 而 VideoOutput 中 有 一 个 属性 为 
frameCopier，VideoOutput 会 根据 是 否 使 用 硬件 解码 器 而 初始 化 不 同类 
型 的 FrameCopier， 如 有 果 使 用 硬件 解码 器 ， 就 实例 化 FastFrameCopier， 
如 果 没 有 使 用 硬件 解码 器 ， 束 实例 化 YUVFrameCopier。 当 
VideoPlayerController 从 视频 队列 中 取出 一 帧 视频 帧 交 给 VideoOutput 来 
泻 染 的 时 候 ，VideoOutput 就 会 调用 前 面 实例 化 好 的 FrameCopier 并 将 
VideoFrame 类 型 的 视频 帧 转化 为 一 个 纹理 ID， 然 后 VideoOutput 束 会 绑 
定 到 displayFrameBuffer 上 ， 最 后 使 用 DirectPassRender 将 纹理 D 演 染 到 
RenderBuffer 上， 也 就 是 泻 染 到 Layer 上 ， 从 而 让 用 户 可 以 看 到 。 在 上 面 
的 整个 泻 染 过 程 中 ， 我 们 要 引入 视频 后 处 理 效果 ， 最 好 在 FrameCopier 
之 后 插入 ， 再 将 FrameCopier 处 理 完 的 纹理 ID 交 给 新 定义 的 
VideoEffectFilter 来 做 视频 特效 的 处 理 ， 处 理 结束 之 后 的 outputTexId 再 由 
原来 的 DirectPassRender 演 染 到 Layer 上 ， 最 后 将 这 个 新 的 节点 引入 
VideoOutput， 整 体 结 构 如 图 11-4 所 示 。 
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图 11-4 
下 面 看 看 如 何 有 具体 构建 这 个 VideoEffectFilter。 首 先 提 供 一 个 
prepareRender 方 法 ， 完 成 OpenGL ES 相关 资源 的 初始 化 ， 要 求 


VideoOutput 在 OpenGL ES 线程 中 调用 这 个 方法 ， 代 人 码 如 下 : 





- (BOOL) prepareRender: (NSInteger) framewidth height: 
(NSInteger) frameHeight; 


_framewidth = framewidth 
_frameHeight = frameHeight; 
[self genOutputFrame]; 
_processor = new VideoEffectProcessor(); 
_processor->init(); 
int filterId = _processor->addFilter(0, 1000000 * 10 * 60 * 60, 
PLAYER_CONTRAST_FILTER_NAME); 
if(filterId >= 0){ 
_processor->invokeFilterOnReady(filterId); 


} 
return YES ; 








其 中 ，genOutputFrame 方 法 是 生成 这 个 类 的 输出 纹理 ID 与 FBO。 至 
于 如 何 生成 纹理 ID 和 FBO， 并 把 这 个 纹理 ID 与 FBO 绑 定 起 来 ， 前 面 己 介 
这 里 束 不 再 展示 具体 的 代码 了 。 接 下 来 就 是 真正 的 泻 染 过 程 ， 代 
人 码 如 下 : 








- (void) renderwithwidth:(NSInteger) width height:(NSInteger) height 
position: (float)position,; 


glBindFramebuffer(GL_FRAMEBUFFER, _FrameBuffer); 
self.processor->process(_inputTexId, position, _outputTextureID); 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 





最 后 就 是 释放 为 后 处 理 而 分 配 的 资源 ， 代 码 如 下 : 


一 
- (void) releaseRender; 


if(_outputTextureID){ 
glDeleteTextures(1, & outputTextureID); 
_outputTextureID = 0; 


} 

if (_FrameBuffer) { 
glDeleteFramebuffers(1, & FrameBuffer); 
_FrameBuffer = 0; 


if (_processor) { 
_processor->dealloc(); 
delete _processor,; 
_processor = NULL; 





至 此 ，VideoEffectFilter 类 就 构建 完毕 。 接 着 在 VideoOutput 类 中 将 
FrameCopier 输 出 给 VideoEffectFilter 作 为 输入 ， 而 把 VideoEffectFilter 输 
出 给 DirectPassRender 作 为 输入 ， 这 样 泻 染 过 程 就 集成 进 了 后 处 理 过 程 。 
当然 ， 目 前 的 后 处 理 过 程 只 是 增强 对 比 度 的 一 个 效果 器 ， 读 者 可 以 将 去 
0 锐 化 效果 器 加 入 后 处 理 过 程 中 ， 这 样 会 让 整体 播放 效果 

很 大 提升 。 


另外 ， 针 对 视频 源 是 网 络 流 的 特殊 处 理 ， 要 在 VideoDecoder 这 个 模 
块 下 给 FFmpeg 加 入 超时 回调 的 方法 ， 虽 然 在 本 地 磁盘 文件 的 读 取 过 程 
中 基本 不 会 出 现 超时 场景 ， 但 是 由 于 网 络 环境 过 于 复杂 ， 所 以 这 里 要 加 
入 超时 方法 。 在 VideoDecoder 类 中 ， 调 用 libavformat 模 块 的 打开 链接 之 
前 ， 可 给 AVFormatContext 设 置 超时 回调 函数 ， 代 码 如 下 : 








AVFormatContext *formatCtx = avformat_alloc_context(); 
AVIOInterruptCB int_cb = {tinterrupt_callback，(_ bridge void *)(self)}; 
formatCtx->interrupt_callback = int_cb; 





其 中 interrupt_callback 静 态 方法 的 回调 函数 实现 如 下 : 





static int interrupt_callback(void *ctx) 


unsafe_unretained VideoDecoder *p = ( bridge VideoDecoder *)ctx; 
const BOOL isInterrupted = [p detectInterrupted] 
return IsInterrupted ; 


} 





在 这 个 静态 函数 中 调用 detectInterrupted 方 法 的 实现 很 简单 ， 就 是 判 


断 当 前 时 间 惟 和 上 一 次 接收 到 数据 或 者 开始 连接 的 时 间 间 隅 ， 如 果 大 于 
超时 时 间 (比如 15s〉， 则 返回 YES， 代 表 已 经 超时 ， 否 则 返回 NO。 若 
返回 YES， 则 代表 FFmpeg 中 阻塞 的 调用 《比如 read_frame、 
find_stream_info 等 ) 会 立即 返回 。 


二 是 对 网 络 流 的 适 配 为 更 改 绥 冲 区 大 小 ， 由 于 在 本 地 播放 右 中 设置 
了 minBuffer 和 maxBuffer 作 为 控制 解码 线程 的 暂 信和 继续 的 条 件 ， 所 以 
之 前 定义 的 宏 如 下 : 





#define LOCAL MIN_BUFFERED DURATION 


0.5 
#define LOCAL MAX_ BUFFERED DURATION 1.0 





在 网 络 中 ， 为 了 避免 频繁 卡 顿 ， 还 要 将 控制 解码 线程 暂停 和 运行 的 
Buffer 长 度 进行 网 络 适 配 ， 新 增 宏 定 义 如 下 : 





#define NETWORK_MIN_BUFFERED_DURATION 


2.0 
#define NETWORK_ MAX_ BUFFERED_DURATION 4.0 








在 拉 演 播放 器 中 残 是 使 用 以 上 两 个 宏 定 义 来 确定 AVSync 模 块 的 组 
冲 区 大 小 的 。 这 样 我 们 就 完成 了 由 本 地 播放 器 到 网 络 拉 流 播放 器 的 适 
配 ， 读 者 可 以 参考 代码 仓库 中 的 源码 ， 以 便于 深入 理解 。 


11.3 推 流 硕 的 构建 


本 节 构 建 主 播 并 使 用 的 推 流 工具 ， 当 然 ， 也 是 根据 前 面 革 市 中 的 视 
频 录 制 应 用 进行 改动 适 配 。 ee 个 视频 录制 器 ， 第 8 章 和 
第 9 章 为 这 个 视频 录制 器 增添 了 音频 II 对 

于 一 个 录 播 应 用 来 说 ， 已 经 比较 完整 了 ， 但 是 对 于 直播 应 用 ， 还 需要 做 
一 些 适 配 工作 。 下 面 看 看 整体 结构 ， 如 图 11-5 所 示 。 
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图 11-5 


从 整体 结构 来 看 ， 录 播 和 直播 的 区 别 仅 在 于 最 终 Muxer (图 11-5 中 
的 Publisher〉 模 块 的 输出 不 同 ， 录 播 是 同 本 地 磁盘 输出 ， 而 直播 是 癌 网 
络 输出 。 网 络 不 同 于 磁盘 的 是 ， 有 可 能 会 出 现 网 络 波动 甚至 网 络 阻 墅 ， 
所 以 要 针对 网 络 这 种 场景 做 对 应 的 适 配 工作 。 


接 下 来 分 析 复 杂 的 网 络 环境 。 读 者 可 以 参考 图 11-6， 主 播 端 第 一 步 
请 求 Http ”Server 的 开播 接口 后 会 得 到 域名 形式 的 推 流 地 址 ， 得 到 推 流 地 
址 后 ， 主 播 端 将 域名 解析 为 实际 的 IP 地 址 和 端口 号 ;， 将 这 个 JP 地 址 经 过 

















公有 网 络 的 各 级 路 由 器 和 交换 机 ， 最 终 找 到 实际 的 CDN 厂 商 节 点 。 从 获 
得 IP 地 址 开始 ， 影 响 整 个 连接 通道 的 因素 有 很 多 ， 其 中 包括 主播 白 己 的 
出 口 网 络 、 中 间 的 链 路 状态 ， 以 及 CDN 厂 商机 房 的 节点 链 路 情况 等 。 影 
响 连 接 通道 的 因素 很 多 ， 如 果 都 由 开发 者 自己 来 解决 ， 显 然 不 合理 。 
CDN 三 商 可 以 帮助 开发 者 解决 除 主播 自己 出 口 网 速 以 外 的 其 他 部 分 ， 当 
然 ， 这 也 是 CDN 厂 商 存在 的 意义 。 但 是 ， 任 何 一 家 CDN 厂 商 也 没有 
100% 的 服务 保证 性 ， 并 且 ， 主 播 自 己 的 出 口 网 络 可 能 是 小 运营 商 ， 也 

可 能 是 教育 网 络 ， 或 者 其 他 设备 占用 网 络 出 口 带宽 。 读 者 可 以 通过 图 

11.6 来 分 析 整 个 阅 络 情 况 ， 
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图 11-6 


综 上 所 述 ， 必 须 做 两 件 事 情 ， 才 可 以 将 视频 录制 硕 转 换 为 可 用 的 主 
播 推 流 工具 : 第 一 件 事情 是 如 果 网 络 超时 ， 要 通知 给 用 户 重新 开播 或 者 
切换 网 络 环境 ， 第 二 件 事情 是 当 网 络 出 现 拌 动 的 时 候 ， 我 们 要 做 丢 帧 来 
保证 整个 视频 直播 的 延迟 时 间 ， 以 维持 整 场 直播 的 交互 性 。 





先 来 看 第 一 件 事情 ， 即 网 络 超时 的 设置 。 超 时 设置 应 该 在 Muxer 模 
块 中 完成 ， 由 于 Muxer 模 块 使 用 的 是 FFmpeg 中 libavformat 模 块 的 封装 层 
和 协议 层 ， 所 以 这 里 设置 的 超时 代码 与 我 们 在 拉 流 端 设置 的 超时 代码 类 
似 ， 即 在 分 配 AVEFormatContext 之 后 ， 并 在 打开 连接 之 前 ， 设 置 超时 回 
调 ， 代 码 如 下 : 


AVFormatContext* oc; 
AVIOInNnterruptCB int_cb = { interrupt_cb, this }; 
oc->interrupt_callback = int_cb; 





静态 函数 interrupt_cb 的 实现 如 下 : 





int RecordingPublisher::interrupt_cb(void *ctx) { 
RecordingPublisher* publisher = (RecordingPublisher*) ctx; 
return publisher->detectTimeout(); 


} 


这 个 静态 函数 interrupt_cb 中 调用 了 RecordingPublisher 类 中 的 

detectTimeout 方 法 ， 而 在 detectTimeonut 方 法 中 会 针对 当前 时 间 惟 的 值 减 
去 上 一 次 发 送 数据 包 的 时 间 戳 的 值 进行 判断 :如果 大 于 我 们 设 定 的 值 
(一 般 设置 为 5~~15s〉， 就 返回 1， 代 表 超 时 ， 应 停止 发 送 数 据 包 ; 合 
则 返回 0， 代 表 没 有 超时 ， 可 以 由 FFEmpeg 的 协议 层 继续 发 送 数 据 包 。 在 
我 们 的 发 送 线程 中 ， 如 果 发 生 了 超时 ， 则 可 以 回调 客户 端 代 码 ， 让 客户 
端 代 码 给 用 户 弹出 提示 ， 让 用 户 重 新 开播 或 者 切换 网 络 重 新 开播 。 


下 面 来 看 网 络 出 现 拌 动 ， 或 者 在 弱 网 环境 下 的 丢 帧 策略 。 读 者 可 以 
先 参考 图 11-5， 图 中 有 两 种 队列 ， 分 别 是 编码 之 前 的 原始 数据 队列 和 编 
公 之 后 的 编码 队列 。 弱 网 丢 帧 策略 常见 的 实现 有 两 种 ， 一 种 是 丢弃 原始 
数据 队列 中 未 编码 的 数据 帧 ， 另 外 一 种 是 丢弃 编码 队列 中 的 数据 帧 。 这 
两 种 实现 各 有 优 缺 点 ， 无 论 采 用 哪 种 实现 方式 都 以 “不 影响 音 视 频 的 对 
齐 ” 为 第 一 准则 。 接 下 来 分 析 两 种 丢 帧 策略 的 优 人 缺点。 丢弃 原始 数据 帧 
的 丢 帧 策略 的 优点 是 ， 节 省 了 这 部 分 丢弃 帧 占用 编码 器 的 资源 ， 并 上 且 ， 
由 于 是 丢 径 的 原始 数据 帧 ， 所 以 可 以 在 任意 时 刻 丢 径 任 意 的 音频 视频 
帧 。 其 缺点 是 ， 增 加 了 直播 的 延迟 时 间 ， 因 为 要 保持 中 间 队 列 有 一 个 阔 
值 。 丢 弃 编码 之 后 ， 数 据 帧 策略 的 优点 是 减少 了 直播 的 延迟 时 间 ; 缺点 
是 于 弃 的 帧 白白 消耗 了 编码 句 资 源 ， 并 且 对 于 视频 帧 ， 只 要 和 技 帧 ， 就 于 
0 
视 少 人 。 











不 同 的 丢 帧 集 略 应 用 在 不 同 的 直播 场景 中 ， 读 者 可 以 依据 目 己 产品 
的 场景 来 选择 丢 帧 集 略 。 笔 者 在 实际 开 友 过 程 中 使 用 的 丢 帧 策略 是 : 视 
频 丢 弃 是 编码 之 后 的 视频 帧 ， 首 频 丢 弃 是 编码 之 前 的 原始 格式 的 首 频 
帧 。 下 面 来 看 具体 的 实现 。 


对 编码 后 的 视频 帧 进行 丢 帧 ， 只 能 丢弃 一 个 完整 的 GOP (或 者 这 个 
GOP 后 半 部 分 非 参 考 视频 帧 ) ， 或 者 这 个 GOP 中 剩余 的 视频 帧 ， 因 为 P 
帧 需要 参考 前 面 的 I 帧 与 P 帧 才能 被 解码 。 对 于 B 帧 ， 需 要 双 同 参考 (下 
播 中 一 般 不 使 用 B 帧 ， 仅 用 项 和 P 帧 ) 。 某 些 策略 会 保留 GOP 中 的 I 帧 ， 
但 是 1 帧 是 GOP 中 容量 最 大 的 视频 帧 ， 而 某 些 策略 是 丢弃 GOP 中 后 半 部 
分 的 P 帧 ， 直 到 这 个 GOP 中 仪 剩余 I 帧 的 时 候 ， 再 把 I 帧 丢弃 。 第 二 种 策 
略 是 一 种 可 取 的 策略 ， 但 是 为 了 简单 考虑 ， 最 终 的 丢 帧 策略 是 : 要 技 弃 
就 丢弃 整个 GOP 〈 如 果 这 个 GOP 已 经 发 送出 去 了 部 分 I 帧 和 P 帧 ， 则 技 掉 
这 个 GOP 中 剩余 的 视频 帧 ) 。 如 果 读 者 想 只 丢弃 GOP 中 后 半 部 分 的 P 帧 
策略 ， 在 后 续 代码 中 进行 更 改 也 很 简单 。 


丢弃 了 视频 帆 后 ， 为 了 不 影响 音 画 的 对 齐 效果 ， 也 应 该 丢弃 同等 时 
间 的 音频 数据 。 但 是 ， 丢 弃 的 那些 视频 帧 总 时 长 是 多 少 呢 ? 我 们 不 可 以 
只 通过 fps 计 算 这 些 视频 帧 所 代表 的 时 长 ， 而 应 该 计算 出 视频 帧 每 一 帧 
持续 的 时 间 是 多 长 ， 必 须 精 确 计算 。 因 为 fps 对 于 Camera 的 影响 是 在 一 
定时 间 范 围 内 ， 所 以 在 一 定时 间 内 连续 的 一 段 视频 帆 数目 是 可 以 被 限定 
在 这 个 fps 之 内 的 ， 但 是 ， 对 于 某 一 小 段 时 间 却 不 能 保证 满足 fps 要 求 的 
限制 。 那 如 何 计算 每 一 帧 视频 帧 的 精确 时 长 呢 ? 只 能 将 Camera 采 集 的 祝 
频 帧 都 打上 一 个 相对 时 间 戳 ， 编 码 时 ， 要 在 编码 成 功 第 二 帧 时 才 赋 值 第 
一 帧 的 duration 信 息 ， 并 把 第 一 帧 放 入 编码 后 的 视频 队列 中 ， 代 码 如 
下 : 














bool LivePacketPool: :pushVideoPacketToQueue(LiveVideoPacket* VideoPacket ) { 
if (NULL != VideoPacketQueue ) { 
// 为 了 计算 当前 帧 的 Duration， 所 以 延迟 一 帧 放 入 Queue 中 
if(NULL != tempVideoPacket){ 
int packetDuration = videoPpacket->timeMills - 
tempVideoPpacket->timeMills; 
tempVideoPacket->duration = packetDuration,; 
VideoPacketQueue->put(tempVideoPacket ) ， 





tempVideoPacket = VideoPacket 


return dropFrame; 
} 


二 一 


其 中 ，tempVideoPacket 是 一 个 全 局 变量 ， 代 表 durtion 属 性 还 没有 被 
赋值 的 视频 帧 ， 当 被 赋值 之 后 ， 它 会 被 加 入 视频 队列 中 。 接 下 来 看 看 如 
何 丢 弃 整 个 GOP 或 者 GOP 中 没有 发 送出 去 的 视频 帧 ， 并 计算 丢弃 的 视频 
帧 所 占用 的 总 时 长 。 在 丢弃 之 前 要 给 整个 队列 上 锁 ， 执 行 完 操 作 之 后 解 
锁 ， 代 码 主体 如 下 : 





int LiveVideoPacketQueue: :discardGOP() { 
int discardVideoFrameDuration = 0; 
LiveVideoPacketList *pktList = 0; 
pthread mutex_lock(&mLock); 
// 执行 丢 帧 操作 
pthread_ mutex_unlock(&mLock); 
return discardVideoFrameDuration; 








执行 丢 帧 操作 的 逻辑 也 比较 简单 ， 会 先 判断 当前 第 一 个 元 素 是 否 是 
关键 帧 ， 如 果 是 关键 帧 ， 则 将 布尔 型 变量 isFirstFrameIDR 设 置 为 true， 
代码 如 下 : 





bool isFirstFrameIDR = false,; 
if(mFirst)t{ 
LiveVideoPacket * pkt = mFirst->pkt; 
if (pkt) { 
int nalu_type = pkt->getNALUType( ); 
if (nalu_type == H264_NALU_TYPE_IDR_PICTURE){ 
isFirstFrameIDR = true; 
} 


} 





} 





然后 循环 队列 中 所 有 的 视频 帧 ， 并 判断 视频 帧 类 型 。 如 果 帧 类 型 不 
是 关键 帧 ， 则 丢弃 这 一 帧 ， 并 把 这 一 帧 的 时 间 长 度 加 到 丢弃 帧 时 间 长 度 
的 变量 上 ， 如 果 是 关键 帧 ， 束 先 判断 isFirstFrameID 变 量 是 否 为 tue， 如 
果 是 true， 则 先 置 为 false， 然 后 丢弃 这 一 帧 并 将 帧 长 度 加 到 丢弃 帧 时 间 
人 
尺码 如 下 : 





LiveVideoPacketList *pktList = 0; 
for (;;) { 
if (mAbortRequest) { 
discardVideoFrameDuration = 0; 
break; 


pktList = mFirst,; 
if (pktList) { 


LiveVideoPacket * pkt = pktList->pkt; 
int nalu_type = pkt->getNALUType( ); 
if (nalu_type == H264_NALU_TYPE_IDR_PICTURE){ 
if(isFirstFrameIDR){ 
isFirstFrameIDR = false; 
discardVideoFrameDuration += pkt->duration; 
relesse(pktList); 
continue 
} else { 
break ; 





} 

} else if (nalu type == H264_ NALU_TYPE_NON_IDR PICTURE) { 
discardVideoFrameDuration += pkt->duration; 
relesse(pktList); 








上 述 方法 的 调用 端 ， 就 是 指 当 编码 之 后 的 视频 帧 要 放 入 队列 中 之 
前 ， 要 判断 当前 视频 队列 的 大 小 和 设置 Threshold〈 阔 值 ) 的 关系 ， 如 果 
超过 阐 值 ， 则 说 明 当 前 网 络 发 生 拌 动 或 者 处 于 弱 网 环境 下 ， 应 执行 丢 帧 
逻辑 。 待 丢弃 完 一 个 GOP 之 后 ， 再 以 这 个 丢弃 掉 视 频 帧 的 时 间 长 度 参 数 
去 丢弃 音频 数据 。 因 为 丢弃 的 音频 帧 是 原始 数据 帧 ， 而 对 于 PCM 队 列 中 
每 个 元 素 都 是 固定 长 度 ( 暂 时 设置 为 40ms)〉 的 一 个 buffer， 所 以 代码 如 
下 : 














bool LivePacketPool::discardAudiopacket() { 

bool ret = false; 

LiveAudioPacket *tempAudioPacket = NULL; 

int resultCode = audioPpacketQueue->get(&tempAudiopPacket, true); 

If (resultCode > 0) { 
delete tempAudioPacket ， 
tempAudioPacket = NULL; 
pthread_rwlock_wrlock(&mRwlock); 
totalDiscardVideoPacketDuration -= (40.0 * 1000.0of); 
pthread_rwlock_unlock(&mRwlock); 
ret = true; 

} 


return ret; 








上 述 函 数 的 实现 比较 简单 ， 调 用 的 地 方 就 在 原来 的 首 频 编码 适配器 
(AudioEncodeAdapter〉 的 getAudioPacket 方 法 中 。 至 此 ， 完 成 了 于 帧 策 
上 略 的 实现 ， 主 播 端 的 推 流 工具 由 视频 录制 器 改造 而 成 。 


11.4 第 三 方 云 服务 介绍 


在 开发 首 视 频 的 App 的 过 程 中 ， 不 得 不 和 第 三 方 的 云 服务 打交道 ， 
因为 这 些 CDN 三 商 对 于 视频 的 带宽 可 以 提供 更 便宜 的 价格 〈 相 较 于 IDC 
的 融 宽 ) ， 而 对 于 视频 的 访问 速度 也 可 以 提供 更 快速 的 访问 通道 。 无 论 
古 在 录 播 场景 下 还 是 在 直播 场景 下 ， 使 用 CDNJ 商都 要 优 于 目 己 搭建 一 
套 存 储 服 务 与 流 媒体 服务 。 


这 里 首先 解释 一 人 CDN，CDN 的 全 称 是 Content Delivery Network， 
其 基本 思路 是 尽 可 能 避 开 互联 网 上 有 可 能 影响 数据 传输 速度 和 稳定 性 的 
瓶颈 与 环节 ， 使 内 容 传输 得 更 快 、 更 稳定 。 一 般 实 现 手段 是 在 各 处 放置 
节点 服务 器 ， 贡 点 服务 器 呈 树 形 结构 ， 用 户 能 直接 访问 到 的 是 边缘 〈 叶 
子 ) 节点 服务 器 ， 如 果 边 缘 蔬 点 服务 器 没有 用 户 所 要 访问 的 资源 ， 就 问 
它 的 上 一 级 节点 服务 器 获取 数据 ;如 有 果 还 没有 《不 同 厂商 提供 的 级 数 不 
同 ) ， 就 向 开发 者 配置 的 文件 实际 地 址 〈 回 源 地 址 ) 获取 ;如果 边 缘 节 
点 有 用 户 所 要 访问 的 资源 ， 就 直接 给 用 户 ， 并 在 用 户 选 择 边缘 节点 的 策 
上 略 上 ，CDN 太 商会 按照 负载 均衡 、 链 路 调度 等 服务 安排 用 户 就 近 获 取 资 
源 ， 降 低 网 络 拥 罕 ， 提 蜗 用 户 访 问 的 啊 应 速度 。 而 CDN 去 源 站 服务 器 获 
取 源 文件 的 这 个 过 程 称 为 回 源 ， 对 于 流 媒 体 资 源 ， 回 源 率 越 小 越 好 ， 殖 
则 源 站 服务 器 的 VO 将 不 塔 重负。 在 日 常 工作 中 ， 不 只 最 终 用 户 的 视频 
作品 会 存储 在 CDN 上 ， 甚 至 我 们 的 图 片 文件 、 音 频 文件 ， 甚 至 前 端 工程 
师 的 js 文件 和 css 文 件 都 可 以 存储 在 CDN 上 。 当 然 ， 在 录 播 场景 下 ， 用 户 
视频 作品 的 存储 以 及 访问 ， 开 发 者 可 能 会 用 到 某 些 CDN 浅 商 。 最 终 开发 
者 或 者 公司 和 CDNJ 商 一 般 会 按照 几 部 分 服务 计算 资费 ， 最 主要 的 就 是 
网 络 融 宽 的 费用 ， 这 部 分 的 费用 要 比 使 用 我 们 目 己 机 房 的 带宽 费用 便宜 
很 多 ， 至 于 存储 、 转 码 等 服务 ， 则 依据 开发 者 自己 的 使 用 情况 进行 收 


Rs 




















在 直播 过 程 中 ， 第 三 方 的 CDN 三 商 又 可 以 给 我 们 提供 哪些 服务 呢 ? 
笔者 根据 目 己 接触 的 CDN) 商 ， 总 结 了 以 下 几 个 主要 服务 。 


.直播 转发 服务 : 提供 快速 、 稳 定 的 直播 转发 服务 ， 接 受 主 播 端 推 
上 来 的 视频 流 ， 并 可 以 转发 给 所 有 的 订阅 者 《观众 端 ) ， 一 般 CDN 广 商 
和 可 以 让 观众 端 以 最 快 的 速度 看 到 
视频 。 





直播 存档 服务 : 在 整个 直播 过 程 中 可 以 存储 视频 ， 便 于 客户 的 产 
品 可 以 沉 演 视频 内 容 ， 后 续 可 以 继续 观看 这 个 视频 。 


直播 转 码 服务 : 提供 多 协议 、 多 分 辨 率 、 多 码 率 的 多 路 转 码 服 
务 ， 产 品 的 多 个 终端 可 能 需求 的 拉 流 协议 是 不 同 的 ， 比 如 网 页 需要 HLS 
协议 ， 而 客户 端 需要 HDL 协议 ， 或 者 在 一 些 大 型 直播 以 及 一 些 专 有 的 体 
育 赛事 直播 中 需要 给 用 户 提 供 超 清 、 高 清 、 标 清 等 多 路 视频 流 。 


视频 抽 帧 服务 ， 可 以 提供 在 可 配置 时 间 内 (1~10s〉 抽 取 一 帧 图 
像 进 行 存 储 ， 可 以 给 客户 提供 内 容 审 核 、 实 时 预 多 等 功能 。 


- 推 流 、 拉 流窜 户 端 SDK: 可 以 提供 推 流 端 和 拉 流 端的 视频 基础 服 
务 ， 可 以 让 客户 花 更 多 的 时 间 在 自己 的 产品 和 社交 功能 上 上。 缺点 就 是 当 
与 系统 中 的 动画 以 及 其 他 页 面 跳 转 等 细节 出 现 不 兼容 性 问题 时 会 比较 麻 
人 是 否 采用 SDK， 读 者 可 以 根据 上 自己 的 业务 场景 以 及 产品 阶段 
进行 选择 。 


除了 上 述 基 础 的 服务 外 ， 某 些 CDN 广 商 也 会 提供 其 他 可 编程 接口 、 
和 
方面 。 


直播 转发 服务 : 在 直播 过 程 中 作为 中 转 服务 器 ， 开 发 者 的 Http 服 务 
融会 分 配 这 个 中 间 地 址 ， 并 发 送 给 推演 端 ， 推 滨 端 将 视频 流 推送 到 这 个 
中 转 服务 器 上 ， 而 观众 端 也 会 到 中 转 服务 器 与 推 流 的 服务 占 不 一 定 相 
同 ，CDN) 商会 提供 最 优 链 路 解决 方案 ) 上 获取 和 下 播 流 。 为 外 ， 在 目 己 
的 Http 服 务 器 返回 推 流 地 址 的 时 候 ， 可 以 加 入 防盗 链 机 制 ( 推 流 地 址 会 
使 用 时 间 惟 加密 后 进行 验证 ) 增加 安全 性 。 


直播 存档 服务 : 在 直播 过 程 中 ， 我 们 的 App 会 将 主播 庙 直播 出 来 的 
区 

















十 播 转 码 服务 : 使 用 这 个 服务 将 视频 实时 转 码 为 HLS 的 视频 流 ， 
供 网 页 播放 服务 使 用 ， 一 般 情况 下 不 会 使 用 到 多 分 辨 率 以 及 多 人 码 率 的 服 
务 ， 如 果 有 一 些 特殊 活动 ， 可 以 提前 申请 这 样 的 服务 。 


视频 抽 帧 服务 ， 使 用 CDN 广 商 提 供 的 这 个 服务 ， 每 隔 5s 获 取 一 帧 
图 像 进行 展示 ， 以 供 内 容 审 核 人 员 针 对 一 些 违规 视频 进行 处 理 。 


合理 使 用 CDN 商 提供 给 我 们 的 服务 ， 可 以 提升 开 肥 效率 ， 缩 短 开 
发 周期 ， 可 以 把 我 们 有 限 的 精力 投入 到 产品 的 打磨 上 ， 让 我 们 在 目 己 的 
细 分 市 场 或 者 垂直 领域 快速 地 进行 迭代 。 但 是 使 用 CDNJ 商 也 有 一 定 的 
浆 端 ， 比 如 CDN/ 商 提 供 了 服务 的 稳定 性 ， 如 果 这 家 CDNJ 商 死 掉 
了 ， 那 很 有 可 能 导致 我 们 的 产品 处 于 不 可 用 状态 ， 所 以 在 实际 的 开发 
中 ， 要 有 多 家 CDN) 商 备 选 ， 可 以 进行 热切 换 ， 最 好 的 方案 整 是 我 们 日 
己 再 搭建 一 套 系 统 ， 以 便 在 所 有 第 三 方 服务 都 挂 挥 的 时 候 ， 也 可 以 保证 
产品 的 可 用 性 。 








11.5 礼物 系统 的 实现 


对 于 一 个 直播 App， 礼 物 展示 系统 的 实现 是 非常 重要 的 ， 它 实现 的 
好 坏 直 接 影响 整个 产品 的 收入 情况 。 因 此 ， 我 们 在 考虑 礼物 系统 实现 的 
时 候 ， 应 该 思考 以 下 几 个 方面 的 问题 。 


礼物 系统 的 性 能 怎么 样 。 
礼物 系统 将 来 的 扩展 性 如 何 。 


` 当 开发 一 个 新 动画 的 时 候 ， 开 发 成 本 是 多 少 ， 其 中 包括 开发 时 间 
多 长 ， 参 与 人 员 由 哪儿 部 分 组 成 等 。 


下 面 列举 几 种 常用 的 实现 手段 。 


第 一 种 手段 是 使 用 各 个 平台 自身 提供 的 API 来 实现 动画 ， 比 如 iOS 平 
台 使 用 CALayer 动 画 SpriteKit 来 实现 ，Android 平 台 使 用 自己 的 Canvas 来 
实现 。 针 对 这 种 实现 手段 ， 我 们 来 分 析 以 上 几 个 问题 ， 礼 物 系 统 的 性 能 
在 iOS 上 没 问 题 ， 在 Android 上 可 能 要 差 一 些 ; 将 来 的 扩展 性 并 不 会 太 
好 ， 将 来 可 能 会 出 现 复杂 的 动画 ， 比 如 类 似 磁 撞 检 测 的 动画 就 很 难 实 
现 ， 当 开发 一 个 新 动画 的 时 候 ， 开 发 成 本 比较 大 ， 因 为 需要 两 个 客户 端 
开发 人 员 和 设计 人 员 共 同 开 发 。 对 于 设计 人 员 输 出 的 图 片 尺 寸 可 能 也 不 
一 样 ， 需 要 不 断 地 和 两 端 开 发 人 员 进 行 调试 ， 以 及 适 配 各 种 机 型 。 


第 二 种 手段 是 使 用 OpenGL ES 来 开发 一 套 自己 的 动画 引擎 ， 前 期 开 
发 成 本 很 高 ， 需 要 兼容 粒子 系统 〈 使 用 Particle Designer 设 计 的 配置 文件 
可 以 直接 运行 到 系统 中 ) ， 甚 至 能 兼容 设计 人 员 使 用 AE (After Effect， 
是 Adobe 的 一 球 专 门 设计 视频 特效 的 图 形 处 理 软件 ) 产 出 的 动画 特效 。 
礼物 系统 的 性 能 没有 问题 ， 将 来 的 扩展 性 主要 看 最 初 自己 的 设计 ， 但 是 
遇 到 特殊 情况 ， 比 如 需要 路 径 和 碰撞 检测 的 场景 很 难 实 现 ， 对 于 开发 成 
本 ， 由 于 是 跨 平 台 的 系统 ， 需 要 的 开发 人 员 不 多 ， 但 是 需要 精通 
OpenGL ES， 了 也 就 是 说 ， 对 开发 人 员 的 要 求 比较 高 ， 而 与 设计 人 员 的 沟 
通 成 本 比较 小 。 


第 三 种 手段 是 使 用 现 有 的 一 些 游戏 引擎 来 实现 动画 ， 比 如 
Cocos2dX、1libGDX 等 。 这 里 以 最 为 流行 的 Cocos2dX 为 例 来 看 上 面 提 到 
的 几 个 问题 ，Cocos2dX 使 用 OpenGL ES 作为 绘制 引擎 ， 所 以 效率 方面 没 



































有 问题 。Cocos2dX 是 一 天 游戏 引擎 ， 在 扩展 性 方面 肯定 是 最 强 的 ， 不 

论 是 碰撞 检测 ， 还 是 其 他 场景 都 比较 容易 实现 ， 人 至 于 开发 成 本 ， 由 于 是 
使 用 C++ 语 言 开 发 的 ， 所 以 比较 简单 ， 但 是 需要 开发 人 员 学 习 Cocos2dX 
的 API， 因 为 这 是 一 项 路 平 台 的 技术 ， 所 以 整体 的 开发 成 本 并 不 高 。 缺 
点 束 是 引入 Cocos2dX 引 擎 会 增加 App 的 体积 。 





其 他 手段 ， 如 Airbnb 的 工程 师 发 布 的 Lottie 项 目 ， 这 个 项 目 可 更 简 
单 地 为 原生 项 目 添加 动画 效果 ， 直 接 支持 AE 的 动画 特效 ， 并 支持 动画 
的 热 更 新 操作 ， 可 以 有 效 减 小 App 的 体积 ， 且 支持 Android、iOS 等 平 
量 人 由 于 这 些 技术 业界 使 用 的 并 不 是 太 多 ， 所 以 笔者 不 在 本 书 中 
让 细 介 < o。 


下 面 将 介绍 Cocos2dX 项 目 在 Android 和 iOS 设 备 上 的 运行 原理 ， 然 后 
介绍 Cocos2dX 的 关键 API， 最 后 利用 这 些 API 实 现 一 个 动画 。 


11.5.1 Cocos2dX 项 目的 运行 原理 


如 何 构建 项 目 这 里 就 不 做 过 多 介绍 了 ， 大 家 可 以 根据 官方 文档 进行 
构建 。 本 节 重 点 介绍 Cocos2dX 项 目 在 Android 平 台 和 iOS 平 台 上 如 何 运 
行 ， 如 果 读 者 面前 有 开发 环境 ， 可 以 打开 代码 仓库 中 的 Android 工 程 或 
者 iOS 工 程 跟随 笔者 进行 分 析 。 


1.Android 项 目的 运行 


下 面 来 看 Android 工 程 ， 这 里 要 使 用 到 Cocos2dX 项 目 提供 的 jar 包 以 
及 我 们 自己 编写 的 so 库 。 首 先 配置 jar 包 ， 可 在 build.gradle 中 进行 ， 至 于 
so 库 ， 可 暂且 假设 已 经 编译 出 来 。 前 面 笔者 提 到 过 Cocos2dX 也 是 基于 
OpenGL ES 引擎 绘制 的 ， 所 以 在 Android 上 需要 使 用 GLSurfaceView 作 为 
Cocos2dX 的 绘制 目标 ， 而 jar 包 里 提供 的 类 Cocos2dxGLSurfaceView 就 是 
我 们 要 使 用 的 GLSurfaceView。 先 创建 这 个 View 对 象 : 














Cocos2dxGLSurfaceView glSurfaceView = new Cocos2dxGLSurfaceView(this); 





然后 给 这 个 GLSurfaceView 设 置 EGL 的 显示 属性 ， 并 设置 Renderer 为 
jar 包 里 提供 的 专 有 类 Cocos2dxRenderer: 





mGLSurfaceView,.setCocos2dxRenderer (new Cocos2dxRenderer()); 





再 来 看 Cocos2dxRenderer 内 部 具体 的 关键 生命 周期 方法 
onSurfaceCreated， 访 方法 里 的 第 一 行 代 码 就 调用 了 nativeInit 方 法 ， 而 
Renderer 的 nativeInit 方 法 最 终 会 调用 Native 层 ，Cocos2dxRenderer 类 对 应 
的 Native 层 的 源码 文件 是 javaactivity-android.cpp， 虽 然 不 同 版 本 的 实现 
不 同 ， 但 不 论 是 在 JNI_OnLoad 方 法 中 ， 还 是 在 nativeInit 方 法 中 ， 都 可 以 
调用 到 以 下 这 个 方法 : 








cocos_android app_init 





这 个 方法 会 和 so 库 中 的 main.cpp 文 件 的 实现 连接 起 来 ， 代 码 如 下 : 





void cocos_android_app_init (JNIEnv* env, jobject thiz){ 
LOGD("cocos_android app_init"); 
AppDelegate *pAppDelegate = new AppDelegate(); 





这 样 束 可 以 让 类 Application 的 单 例 引 用 指 辣 我 们 自己 写 的 
APPDelegate 〈 继 承 自 Application 类 ) 了 。 而 在 接 下 来 的 nativeInit 方 法 
中 ， 会 给 Director 设 置 GLView， 代 码 如 下 : 





director->setOpenGLView(glview); 





GLView 是 一 个 接口 ，Cocos2dX 在 Android 平 台 和 iOS 平 台 有 各 自 的 
实现 ， 分 别 完成 一 些 平台 相关 的 操作 ， 比 如 viewPort、getSize、 
SwapBuffer 等 操作 ， 面 向 接口 编程 的 好 处 显而易见 ， 正 是 因为 这 种 设计 
才 可 以 让 Cocos2dX 可 以 跨 平 台 运行 。 在 nativeInit 方 法 中 有 一 个 最 关键 的 
调用 ， 它 能 让 整个 引擎 运行 起 来 ， 方 法 如 下 : 








cocos2d: :Application: :getInstance()->run(); 





上 述 流程 会 让 整个 引擎 委托 给 我 们 书写 的 类 来 完成 操作 。 而 在 
APPDelegate 中 是 如 何 实现 的 ， 会 在 11.5.2 节 继续 讲解 。 在 Renderer 的 生 
命 周期 方法 onDrawFrame 中 会 调用 到 nativeRender 方 法 ， 而 
nativeRenderer 方 法 也 会 调用 到 Native 层 ， 在 Native 层 中 可 以 看 到 如 下 调 
用 : 





cocos2d: :Director::getInstance()->mainLoop(); 





mainLoop 方 法 是 Director 类 中 要 绘制 内 部 所 有 场景 (Scene) 的 地 
方 ， 这 样 束 可 以 不 断 地 绘制 整个 动画 。 

综 上 所 述 ， 可 依靠 GLSurfaceView 内 部 的 泻 染 线程 调用 Renderer 的 
onDrawFrame 方 法 将 整个 演 染 过 程 跑 起 来 。 至 于 上 面 提 到 的 Cocos2dX 的 
入 口 类 Director 以 及 关键 API， 后 续 章 节 会 继续 介绍 。 
2.iOS 项 目的 运行 


运行 jOS 项 目 之 后 ， 可 以 先 找到 源码 文件 main.m， 这 个 文件 是 整个 


App 的 入 口 类 ， 这 里 可 以 将 AppController 这 个 类 作为 整个 App 的 生命 周 
期 方法 的 代理 类 。 在 这 个 类 中 ， 首 先 声明 了 一 个 变量 ， 如 下 : 








static AppDelegate s_sharedApplication; 








声明 这 个 变量 的 目的 是 让 Cocos2dX 的 Application 入 口交 由 
APPDelegate 这 个 类 ， 由 于 Application 是 单 例 模式 设计 的 ， 而 
APPDelegate 又 继承 自 Application 类 ， 从 而 达到 了 委托 给 APPDelegate 这 
个 类 的 目的 。 下 面 看 这 个 类 中 的 启动 方法 : 





- (BOOL)application: 
(UIApplication *)application didFinishLaunchingwithOptions: 
(NSDictionary *)launchoptions; 








在 这 个 启动 的 方法 中 ， 首 先 取 出 Application， 然 后 设置 OpenGL 上 
下 文 的 属性 ， 接 下 来 利用 提供 的 CCEAGLView 构 造 一 个 UIView， 并 将 
这 个 View 以 subView 的 方式 加 入 ViewController 中 ， 最 终 给 Director 设 置 
这 个 构造 出 来 的 GLView， 以 及 调用 Application 的 ran 方 法 ， 代 码 如 下 : 





cocos2d: :GLView *glview = cocos2d::GLViewImpl::createWwithEAGLView(eaglView); 
cocos2d: :Director::getInstance()->setOpenGLView(glview); 
cocos2d: :Application: :getInstance()->run(); 





run 方 法 会 调用 到 Cocos2dX 引 擎 定义 在 AppDelegate 中 的 生命 周期 方 
法 ， 然 后 在 源码 中 可 以 发 现 run 方 法 最 终 会 调用 Director 的 
startMainLoop: 





[[CCDirectorCaller sharedDirectorCaller] startMainLoop]; 








run 方 法 还 会 使 用 CADisplayLink 来 做 一 个 定时 器 ， 按 照 设置 的 fps 信 
息 调用 OpenGL ES 的 演 染 操作 ， 而 关键 的 OpenGL ES 操作 都 在 
CCEAGLView 中 实现 ， 在 Director 中 的 关键 操作 〈 比 如 SwapBuffer) 则 
会 委托 给 GLView 来 完成 ， 这 样 它 们 就 又 到 达 了 CCEAGLView 类 中 ， 从 
而 让 整个 Cocos2dX 引 擎 实现 了 在 ioOSs 平 台 的 运行 。 相 较 于 Android 平 台 ， 
iOS 平 台 的 运行 原理 比较 简单 ， 大 家 可 以 理解 Cocos2dX 是 如 何 通过 面向 
接口 编程 达到 实现 路 平台 特性 的 。 





11.5.2 ”关键 APIT 详 解 


本 节 将 介绍 Cocos2dX 里 的 关键 API。 不 过 ， 这 里 不 再 区 分 平台 ， 而 
是 使 用 一 套 跤 平台 的 代码 。 对 于 Cocos2dX 引 擎 来 讲 ， 最 重要 的 是 
Director 类 ， 就 像 它 的 名 字 一 样 ， 它 是 整个 游戏 或 者 动画 的 导演 ， 控 制 
着 内 部 所 有 场景 《Scene〉 的 演 染 ， 可 以 进行 显示 、 切 换 等 操作 。 对 于 
场景 ， 大 家 可 以 将 其 理解 为 一 个 界面 ， 类 似 于 Android 里 的 Activity， 或 
者 iOS 里 的 ViewController， 在 这 个 场景 中 可 以 有 很 多 图 层 (Layer) ， 
一 个 图 层 就 类 似 于 Photoshop 中 的 图 层 ， 所 有 上 述 这 些 对 象 共 同 构 成 了 
Cocos2dX 引 敬 。 


接 下 来 读者 可 以 看 到 在 上 面 提 到 的 AppDelegate， 这 个 AppDelegate 
就 是 Cocos2dX 引 苟 委托 给 开发 者 的 程序 入 口 ，AppDelegate 也 必须 继承 
自 cocos2d: : Application， 并 重 写 这 里 的 生命 周期 方法 ， 如 下 : 


当 应 用 程序 启动 的 时 候 会 调用 方法 applicationDidFinishLaunching。 


` 当 应 用 程序 进入 后 台 的 时 候 会 调用 方法 
appjlicationDidEnterBackground 。 

` 当 应 用 程序 回 到 前 台 的 时 候 会 调用 方法 
appjlicationWillEnterForeground 。 

由 于 iOS 平 台 不 允许 App 进 入 后 台 之 后 还 使 用 OpenGL ES 泻 染 ， 并 且 
进入 后 台 之 后 也 没 必 要 为 用 户 展示 动画 ， 所 以 当 应 用 程序 进入 后 台 的 时 
候 ， 应 该 调用 停止 动画 的 方法 : 




















Director::getIinstance()->stopAnimation(); 





调用 了 上 上述 方 法 之 后 ，Director 中 的 演 染 行为 就 不 会 再 触发 ， 内 部 
实现 会 把 invalid 的 变量 设置 为 tue。 在 mainLoop 方 法 中 ， 待 判断 出 这 个 
变量 是 true 之 后 ，Director 束 不 会 去 泻 染 内 部 的 场景 了 。 而 当 App 又 重新 
回 到 前 台 的 时 候 ， 则 应 该 继续 启用 动画 : 








Director::getIinstance()->startAnimation( ); 





这 个 方法 的 内 部 实现 又 会 把 invalid 变 量 设 置 为 false， 而 在 Director 内 
部 的 mainLoop， 束 会 继续 泻 染 内 部 的 场景 ， 用 户 就 可 以 继续 看 到 动画 
了 。 接 下 来 看 看 最 重要 的 生命 周期 方法 applicationDidFinishLaunching， 
这 个 方法 是 Cocos2dX 引 擎 留 给 开发 者 设置 参数 与 绘制 操作 等 程序 入 口 
的 地 方 。 先 来 看 设置 Director 的 代码 部 分 : 








auto director = Director: :getInstance()， 
director->setDisplaystats(false); 
director->setAnimationInterval(1.0 / 45); 
director->setclearColor(Color4F(0, 0, 0, 0)); 





首先 获得 Director 的 实例 ， 然 后 将 显示 fps 状 态 的 开关 关闭 ， 接 下 来 
设置 ps， 这 里 设置 为 一 秒 钟 45 帧 的 帧 率 ， 最 后 一 行 代 码 设置 为 背景 两 
色 ， 其 实 这 个 颜色 是 每 次 绘制 最 开始 使 用 glClearColor 时 所 用 的 颜色 。 

由 于 设备 分 辨 率 具 有 多 样 性 ， 设 计 人 员 在 调整 动画 效果 或 者 游戏 效果 的 
时 候 也 只 会 设计 一 个 标准 分 辨 紊 ， 因 此 ， 适 配 不 同 分 辩 紊 的 机 器 在 
Cocos2dXx 中 的 实现 如 下 : 





static cocos2d: :Size designResolutionSize = cocos2d::Size(480, 320); 
static cocos2d::Size smallResolutionSize = cocos2d::Size(480, 320); 
static cocos2d::Size mediumResolutionSize = cocos2d::Size(1024, 768); 
auto glview = director->getOpenGLView( ); 
if(!glview) { 
glview = GLViewImpl::create("changba-cocos"); 
director->setOpenGLView(glview); 
} 
glview->setDesignResolutionSize(designResolutionSize.width, 
designResolutionSize.height, ResolutionpPolicy::NO_BORDER); 
Size frameSize = glview->getFrameSize(); 
if (frameSize.height > smallResolutionSize.height){ 
director->setContentScaleFactor(MIN(mediumResolutionSize.height/ 
designResolutionSize,.height, mediumResolutionSize.width/ 
designResolutionSize .width)); 
}elsef{ 
director->setContentScaleFactor(MIN(smallResolutionSize.height/ 
designResolutionSize,.height, smallResolutionSize.width/ 
designResolutionSize .width)); 





从 以 上 代码 可 以 看 到 ， 首 先 会 取出 Director 的 绘制 目标 GLView， 然 
后 会 给 这 个 GLView 设 置 进入 原始 的 分 辨 率 ， 并 对 比 GLView 的 大 小 ， 给 
Director 设 置 一 个 Scale 系数 ， 而 Cocos2dX 在 实际 绘制 过 程 中 会 使 用 Scale 
系数 进行 屏 莫 分辨 率 的 适 配 。 


完成 Director 的 设置 后 ， 接 下 来 就 来 实例 化 一 个 场景 ， 让 Director 来 





显示 这 个 场景 。 





auto Scene = AnimatinScene': :create()， 
director->runwithScene(Scene ) 








可 以 看 到 这 里 所 有 的 类 型 都 是 auto 类 型 的 ， 代 表 自 动 回 收 对 象 ， 而 
最 后 一 行 代码 是 告诉 Director 运 行 HellWord 这 个 场景 。 


对 AppDelegate 的 介绍 就 到 这 里 。 下 面 来 看 HelloWord 这 个 场景 是 如 
何 构建 的 。 要 创建 一 个 场景 ， 必 须 继 承 自 cocos2d: : Scene， 然 后 重 写 
init 方 法 ， 因 为 Scene 里 默认 的 create 方 法 是 调用 了 init 方 法 ， 所 以 只 有 重 
写 init 方 法 才 可 以 在 场景 的 创建 过 程 中 完成 我 们 的 逻辑 。 





bool AnimationScene::init() { 
if (!Scene::init()) { 
return false; 


auto keyBoardLayer = KeyBoardLayer::create(); 
addCchild(keyBoardLayer, 1, 1); 
return true; 





第 一 行 代码 调用 了 父 类 的 init 方 法 ， 然 后 创建 KeyBoardLayer， 并 调 
用 addChild 方 法 将 Layer 加 入 我 们 的 场景 中 ， 而 KeyBoardLayer 就 是 设置 
的 一 个 菜单 Layer， 上 面 可 以 增加 动画 按钮 与 退出 按钮 ， 点 击 不 同 的 按 
钮 有 不 同 的 行为 。 


接 下 来 看 KeyBoardLayer 的 内 部 实现 。 首 先 Layer 要 继承 自 
cocos2d: : Layer， 然 后 要 重 写 init 方 法 ， 在 init 方 法 中 需要 调用 父 类 的 
初始 化 方法 ， 代 码 如 下 : 














bool KeyBoardLayer: :init() { 
// 1 :调用 父 类 的 初始 化 
if (!Layer::init())t{ 
return false; 
} 
Size visibleSize = Director::getIinstance()->getVisibleSize(); 
Vec2 origin = Director::getInstance()->getVisibleOrigin(); 
// 2: 增 加 关闭 按钮 
// 3: 增 加 动画 按钮 




















可 以 看 到 以 上 代码 分 为 了 三 部 分 ， 第 一 部 分 是 调用 父 类 的 初始 化 方 
法 ， 然 后 取出 屏幕 的 宽度 与 起 始点 位 置 ， 便 于 后 续 诡 加 按钮 来 计算 位 
置 ， 第 二 部 分 是 给 Layer 增 加 一 个 关闭 按钮 ， 代 码 如 下 : 





auto closeItem = MenuItemImage: :create("CloseNormal.png"，"C1loseSelected.pnc 
CC_CALLBACK_1(KeyBoardLayer : :menuCloseCallback, this)); 

closeItem->setPosition(Vec2(origin.x + visibleSize.width - 
closeItem->getContentSize().width/2 ， 
origin.y + closeItem->getContentSize().height/2)); 

auto menu = Menu::create(closeItem, NULL); 

menu->setPosition(Vec2::ZERO); 

this->addcChild(menu, 1); 





从 以 上 代码 可 以 看 到 ， 这 里 选择 了 两 张 图 片 分 别 作为 这 个 采 单 项 的 
普通 状态 和 选中 状态 ， 点 击 的 监听 方法 是 本 类 的 menuCloseCallback 方 
法 ， 然 后 设置 位 置 ， 并 且 加 入 到 创建 的 Menu 里 去 ， 最 终 将 这 个 Menu 加 
入 到 Layer 中 ， 而 menuCloseCallback 方 法 的 实现 如 下 : 











void KeyboardLayer : :menuCloseCallback(Ref* pSender) { 
Director::getIinstance()->end(); 
} 





以 上 代码 直接 调用 Director 的 end 方 法 可 结束 整个 Cocos2dX 的 绘制 。 
接 下 来 看 Layer 的 init 方 法 中 的 第 三 部 分 添加 一 个 动画 按钮 ， 代 码 如 
于， 








auto animationBtn = Label::createwithTTF("show", "fonts/Marker Felt.ttf", 1¢ 
animationBtn->setAnchorPoint(Point(0, 0)); 
auto listener = EventListenerTouchOneByOne: :create(); 
listener->setSwallowTouches(true); 
listener->onTouchBegan = [] (Touch *touch, Event *event) { 
If (event->getCurrentTarget()->getBoundingBox(). 
containsPoint(touch->getLocation())) { 
Scene* Scene = Director::getInstance()->getRunningScene(); 
AnimationScene* animation = (AnimationScene*) Scene 
animation->showAnimation(); 
return true; 


return false; 
}; 
Director::getIinstance()->getEventDispatcher()-> 
addEventListenerwithSsceneGraphPriority(listener, animationBtn); 
animationBtn->setPosition(Vec2(origin.x + 0, origin.y)); 
this->addcChild(animationBtn, 1); 





里 然 这 里 称 为 增加 了 一 个 按钮 ， 实 际 上 使 用 的 是 Cocos2dX 提 供 的 


Label 控 件 ， 首 先 加 载 一 个 字体 ， 然 后 按照 文字 〈show) 与 字体 大 小 

(10) 创建 一 个 label， 并 创建 一 个 监听 事件 ， 这 个 监听 事件 被 触发 的 时 
候 会 取出 当前 Director 运 行 的 场景 ， 并 调用 showAnimation 方 法 。 接 下 来 
将 label 绑 定 这 个 监听 事件 ， 最 后 给 label 设 置 位 置 ， 并 加 入 Layer 中 。 


至 此 关键 的 API 也 已 经 介绍 完成 。 





11.5.3 ”实现 一 款 动 画 


本 节 会 带领 大 家 实现 一 个 亲吻 的 动画 展示 ， 首 先 来 看 由 所 有 帧 组 成 
的 一 张大 图 片 ， 如 图 11-7 所 示 。 





图 11-7 


图 11-7 是 将 序列 帧 图 像 合并 在 一 起 得 到 的 ， 接 独 来 看 将 整 张 图 片 裁 
剪 成 为 动画 帧 序列 的 plist 配 置 文件 ， 如 图 11-8 所 示 。 


plist 配 置 文件 描述 了 每 一 帧 图 片 应 该 在 整 张 图 片 的 位 置 以 及 旋转 角 
度 ，Cocos2dX 引 擎 可 以 解析 这 个 plist 配 置 文件 并 结合 原始 图 片 最 终 形成 
序列 帧 。 设 计 人 员 如 何 生成 plist 配 置 文件 以 及 合并 整 张 图 片 呢 ? 答案 是 
使 用 TexturePacker 工 具 ，Pplist 配 置 文件 也 是 可 以 被 大 部 分 游戏 引擎 解析 
的 ， 其 中 包括 Cocos2dX、libGDX、Unity3D 等 。 当 设计 人 员 利 用 AE 开 
发 完 动画 之 后 ， 然 后 导出 png 序 列 图 ， 之 后 使 用 TexturePacker 制 作成 为 
plist 配 置 文件 与 大 图 的 形式 ， 然 后 提供 给 开发 者 使 用 。 接 下 来 看 看 如 何 
利用 整 张 图 片 与 这 个 配置 文件 完成 动画 的 展示 。 











vframes Dictionary (11 items) 
Yel_kiss00.png Dictionary (5 items) 
frame String {{442,2},{190,278}} 
offset String {44,-49} 
rotated OO Boolean NO 
sourceColorRect String {{99,110}),{190,278}) 
sourceSize String {300,400)} 
pel_kiss01.png Dictionary (5 items) 
pel_kiss02.png Dictionary (5 items 
* el_kiss03.png Dictionary (5 items) 
bel_kiss04.png Dictionary (5 items) 
bp el_kiss05.png Dictionary (5 items 
pel_kiss06.png Dictionary (5 items 
bel_kiss07.png Dictionary (5 items) 
bp el_kiss08.png Dictionary (5 items 
bp el_kiss09.png Dictionary (5 items 
pel_kiss10.png Dictionary (5 items 
vmetadata Dictionary (5 items) 
format Number 2 
realTextureFileName String el_kiss.png 
size String {1024,1024} 
smartupdate String $TexturePacker'SmartUpdate:491988aagbacfaee86f3477ef53c707e:1/1$ 
textureFileName String el_kiss.png 
图 11-8 


在 Cocos2dX 中 ， 每 一 个 能 运动 的 物体 都 可 以 理解 为 一 个 精灵 ， 姥 
Cocos2dX 提 供 的 精灵 缓存 类 来 解析 出 所 有 的 序列 帧 ， 代 码 
0D 下 : 





SpriteFrameCache * cache = SpriteFrameCache: :getInstance( )， 
cache->addSpriteFrameswithFile("el kiss.plist"); 





将 plist 配 置 文件 解析 完成 后 ， 所 有 的 帧 序列 都 存在 于 缓存 中 了 。 接 
下 来 利用 名 字 创 建 一 个 精灵 对 象 ， 代 码 如 下 : 





auto kissSprite = Sprite::createwithSpriteFrameName("el kiss00.png"); 
int randomY = random(170.f, screenHeight - 80.f); 
kissSprite->setPosition(screenWidth + 30, randomY); 
kissSprite->setOpacity(255); 

this->addcChild(kissSprite); 





以 上 代码 中 先 使 用 第 一 张 图 片 创建 了 一 个 精灵 对 象 ， 然 后 设置 了 位 
置 与 透明 属性 ， 由 于 这 个 位 置 是 画 在 屏幕 的 右 侧 还 要 再 加 30 个 像素 的 地 
方 ， 所 以 暂时 看 不 到 。 | 接 下 来 为 这 个 
精灵 安排 动画 ， 动 画 分 为 三 部 分 ， 第 一 部 分 是 从 屏 尹 右 侧 移动 到 屏幕 中 
间 ， 第 二 部 分 ) 是 重复 3 次 整个 序 列 帧 动画 ， 第 三 部 分 是 重新 移出 到 屏 大 
0 下 面 来 看 第 一 部 分 从 屏幕 右 侧 移动 到 屏幕 中 看 得 见 的 位 置 ， 代 码 
下: 

















auto kissFirstStepMoveAction = MoveTo::create(0.3, 
Vec2(screenWidth - 200, randomY)); 
auto kissFirstStepEaseOutAction = EaseOut::create(kissFirstStepMoveAction, 2 
auto kissFirstMoveTargetAction = TargetedAction::create(kissSprite, 
kissFirstStepEaseOutAction); 





代码 中 的 第 一 行 定义 了 一 个 移动 的 动画 ， 相 当 于 从 原来 的 位 置 历经 
0.3s 时 间 移 动 到 屏幕 宽度 减 去 200 的 位 置 〈 纵 坐标 不 变 ， 依 然 是 
randomY ) ， tn he 主要 是 为 了 将 匀速 运动 变 成 非 
匀速 运动 ， 最 终 使 用 TargetedAction 在 这 个 精灵 上 创建 出 这 个 动作 。 下 
面 来 看 第 二 部 分 的 动画 ， 代 码 如 下 : 




















// 1: 在 缓存 中 拿 出 所 有 精灵 帧 
Vector<SpriteFrame *>animFrames(11); 
char Str[100] = {0}; 

for(int i = 0;i < 11 ;i++) { 

















sprintf(str, "el_ kiss%02d.png",i); 
SpriteFrame *frame = cache->getSpriteFrameByName(str); 
animFrames.pushBack(frame ) ， 





} 
// 2: 创 建 Animation 
auto animation = Animation::createwithSpriteFrames(animFrames, 1.0 / 11, 3); 





// 3: 构 建 Action 

auto kissAnimationAction = Animate: :create(animation); 

auto kissAnimationTargetAction = TargetedAction::create(kissSprite, 
kissAnimationAction ),; 





可 以 看 到 以 上 代码 段 分 为 三 部 分 ， 第 一 部 分 在 精灵 缓存 池 中 拿 出 所 
有 的 精灵 帧 放 入 一 个 数组 中 ， 第 二 部 分 利用 这 个 数组 中 的 精灵 帧 和 延迟 
时 间 以 及 循环 次 数 创 建 出 Animation 对 象 ， 第 三 部 分 利用 这 个 Animation 
对 象 构 造 出 动作 。 下 面 来 看 最 后 一 部 分 的 动画 ， 代 码 如 下 : 





auto kissLastStepMoveAction = MoveTo: :create(0.,.2， 
Vec2(screenWidth + 30, randomY)); 
auto kissLastStepEaseInAction = EaseIn::create(kissLastStepMoveAction, 2); 
auto kissLastMoveTargetAction = TargetedAction::create(kissSprite, 
kissLastStepEaseInAction); 





这 与 第 一 部 分 的 动画 正好 相反 ， 是 同 屏 幕 的 右 侧 移动 ， 使 用 EaseIn 
将 匀速 运动 封 浪 为 非 习 速 运动 。 最 后 将 这 三 部 分 动画 封装 到 一 个 友 列 动 
作 中 ， 并 在 结束 的 时 候 将 这 个 精灵 对 象 移 除 ， 之 后 将 这 个 序列 动作 放 入 
场景 中 执行 ， 代 码 如 下 : 








auto sequence = Sequence::create(kissFirstMoveTargetAction, 
kissAnimationTargetAction, kissLastMoveTargetAction, 
CallFunc: :create(CC CALLBACK_ 0(Node::removeFromParent, kissSprite)), 
NULL); 
this->runAction(sequence); 








至 此 ，showAnimation 方 法 就 实现 好 了 ， 这 个 方法 完成 了 动画 的 展 
示 ， 读 者 可 以 参考 代码 仓库 中 的 源码 进行 分 析 ， 以 便于 深入 理解 。 


11.6 ”聊天 系统 的 实现 


聊天 系统 也 有 很 多 手段 可 以 实现 ， 在 直播 App 中 使 用 的 聊天 系统 不 
只 用 于 聊天 ， 还 会 作为 这 个 直播 房间 的 指令 控制 系统 。 那 指令 控制 系统 
都 包含 哪些 指令 呢 ? 比如 主播 要 中 出 某 一 个 观众 ， 或 者 要 禁 言 某 一 个 观 
众 ， 观 众 给 主播 赠送 了 一 个 礼物 等 ， 都 属于 一 条 条 的 控制 指令 ， 其 实 真 
正 的 聊天 内 容 也 可 以 看 作 一 个 指令 ， 就 是 聊天 指令 。 实 现 手段 也 有 很 多 
种 ， 其 中 最 常用 的 就 是 WebSocket 协 议 。 本 节 将 详细 介绍 如 何 利用 
WebSocket 来 实现 指令 控制 (或 者 聊天 系统 ) 。 


WebSocket API 是 下 一 代 客 户 端 -服务 器 的 异步 通信 方法 ， 是 HIMLS5 
规范 中 蔡 代 AJAX 的 一 种 新 技术 。 现 在 ， 很 多 网 站 为 了 实现 推送 技术 ， 
使 用 的 技术 都 是 轮 询 。 轮 询 是 在 特定 的 时 间 间 隔 〈 如 每 1 秒 ) ， 由 浏览 
妖 对 服务 器 发 出 HTTP request， 然 后 由 服务 器 返回 最 新 的 数据 给 客户 端 
的 浏览 器 。 这 种 传统 的 模式 有 很 明显 的 缺点 ， 即 浏览 器 需要 不 断 地 癌 服 
务 器 发 出 请 求 。 然 而 ，HTTP request 的 header 是 非常 长 的 ， 里 面包 含 的 
数据 可 能 只 是 一 个 很 小 的 值 ， 这 样 会 占用 很 多 的 带宽 和 服务 吉 资 源 。 新 
的 轮 询 技术 是 Comet， 使 用 了 AJAX。 这 种 技术 虽然 可 达到 双向 通信 ， 
但 依然 要 发 出 请 求 ， 而 在 Comet 中 ， 普 过 采用 了 长 链接 ， 这 也 会 大 量 消 
耗 服 务 器 融 宽 和 资源 。 面 对 这 种 状况 ，HIML5 定 义 了 WebSocket 协 议 ， 
能 更 好 地 节省 服务 器 资源 和 带宽 并 能 实时 通信 ， 且 实现 了 浏览 喜与 服务 
器 全 双 工 通信 (full-duplex) 。 在 WebSocket API 中 ， 浏 览 器 和 服务 器 只 
需要 做 一 个 握手 的 动作 ， 浏 览 右 和 服务 句 之 间 就 形成 了 一 条 快速 通道 。 
两 者 之 间 可 直接 进行 数据 互相 传送 。 但 是 它 不 单单 仅 适 用 于 Web 端 ， 在 
客户 问 使 用 起 来 也 非常 方便 ， 一般 使 用 在 客户 端 会 维护 一 个 WebSocket 
对 象 ， 该 对 象 可 以 调用 发 起 连接 、 发 送 消息 、 关 闭 连 接 的 方法 ， 同 时 要 
为 这 个 对 象 绑 定 以 下 四 个 事件 。 


-onOpen: 连接 建立 时 触发 。 

-onMessage: 收 到 服务 端 消息 时 触发 。 

“onError: 连接 出 错时 触发 。 

“onClose: 连接 关闭 时 触发 。 

在 这 四 个 事件 中 ， 开 发 者 可 以 执行 目 己 的 操作 ， 下 面 分 别 介 绍 如 何 




















在 Android 和 iOS 客 户 端 使 用 WebSocket 技 术 实 现 人 简单 的 聊天 系统 。 


11.6.1 Android 客 户 疹 的 WebSocket 实 现 
Android 客 户 端 比较 常用 的 WebSocketClient 有 autobahn、 


AndroidAsync、Java-WebSocket， 笔 者 使 用 的 是 autobahn， 读 者 可 以 根 
， 目 己 的 使 用 场景 来 选择 。 现 在 来 看 如 何 使 用 autobahn 实 现 一 个 聊天 系 


首先 来 看 实例 化 WebSocket 对 象 与 及 起 连接 的 实现 ， 代 码 如 下 : 





WebSocket mConnection = new WebSocketConnection(); 
String wsuri = "ws://echo.websocket.org"; 
mConnection.connect(wsuri, new WebSocketConnectionHandler() { 
Q@Override 
public void onopen() { 


Q@override 

public void onClose(int code, String reason) { 
} 

Q@override 

public void onTextMessage(String payload) { 


Q@override 
public void onBinaryMessage(byte[] payload) { 


@Override 
public void onRawTextMessage(byte[] payload) { 
} 

}); 





从 以 上 代码 可 以 看 到 ， 在 对 地 址 "ws: //echo.websocket.org" 发 起 连 
接 时 ， 需 要 传递 一 个 回调 接口 ， 当 打开 连接 成 功 的 时 候 会 回调 onOpen 方 
法 ， 用 来 提示 用 户 已 经 连接 成 功 ， 并 且 开 发 者 也 会 开始 发 送 Ping 命 令 ， 
以 保持 心跳 连接 ， 如 果 打 开 连 接 失 败 ， 回 调 onClose 方 法 ， 开 发 者 可 以 
在 这 里 尝试 重 试 策略 ， 或 者 提示 用 户 连 接 失 败 ， 当 收 到 消 恩 的 时 候 ， 如 
果 是 字符 串 类 型 的 消息 ， 则 回调 onTextMessage 方 法 ; 如 果 是 二 进 制 类 
型 的 消息 ， 则 回调 onBinaryMessage 方 法 。 


接 下 来 发 送 Ping 消 息 ， 直 接 调用 WebSocket 对 象 的 sendPing 方 法 ， 如 
果 发 送 实际 的 消息 ， 就 调用 sendTextMessage 方 法 ， 而 在 最 终 关 闭 连接 的 
时 候 调 用 disconnect 方 法 就 可 。 





11.6.2 ioOS 客 户 端的 WebSocket 实 现 


iOS 客 户 端 实现 WebSocket 使 用 最 多 的 束 是 SocketRocket 这 个 第 三 方 
库 ， 大 家 可 以 在 GitHub 上 下 载 这 个 库 ， 当 然 也 可 以 直接 在 代码 仓库 中 拿 
到 源码 。 把 这 个 库 的 目录 拖 到 项 目 中 后 ， 还 要 为 项 目 添 加 一 个 
libicucore.tbd 库 ， 然 后 引入 SRWebSocket 的 头 文 件 ， 代 码 如 下 : 








#import "SRWebSocket.h" 








之 后 让 ViewController 实 现 头 文件 中 的 SRWebSocketDelegate 协 议 ， 
这 时 需要 重 写 以 下 方法 : 








- (void)webSocketDidOopen: (SRWebSocket *)webSocket { 


(Volo )webSoeKet: (SRWebSocket *)webSocket didFailwithError: 
(NSEEFO *)error { 


} 
- (void)webSocket: (SRWebSocket *)webSocket didReceiveMessage:(id)message { 


- (void)webSocket: (SRWebSocket *)webSocket didClosewithCode: (NSInteger)code 
reason: (NSString *)reason wasClean:(BOOL)wasClean { 


} 





协议 中 定义 的 这 四 个 方法 ， 分 别 对 应 前 面 介 绍 的 四 个 事件 ， 它 们 分 
别 在 连接 成 功 的 时 候 回 调 webSocketDidOpen 方 法 ， 可 以 提示 给 用 户 连接 
成 功 以 及 取消 掉 Loading 框 ， 并 同时 局 动 一 个 定时 右 ， 定 时 给 服务 器 发 
送 ping 的 消息 ， 以 保证 上 自己 处 理 存 活 状 态 ， 连 接 失 败 的 时 候 回 调 
webSocket: didFaileWithError 方 法 ， 开 发 者 可 以 重 连 策 略 ， 如 果 不 重 
连 ， 应 该 提示 给 用 户 连接 失败 ; 接收 到 消息 的 时 候 回 调 webSocket: 
didReceiveMessage 方 法 。 由 于 可 以 传递 二 进 制 的 消 恩 ， 所 以 开发 者 可 以 
判断 参数 中 的 message 类 型 ， 再 去 做 上 自己 的 处 理 ; 并 且 可 在 连接 最 终 关 
闭 的 时 候 回 调 webSocket: didCloseWithCode: reason: wasClean 方 法 ， 
开发 者 可 以 根据 关闭 原因 去 尝试 重 连 ， 并 记录 错误 原因 。 


而 真正 的 实例 化 WebSocket 对 象 以 及 发 起 连接 操作 也 很 简单 ， 代 码 
DT 下 : 














NSString *url = "ws: //echo. websocket .org" 
SRWebSocket *webSocket = [[SRwebSocket alioc] initwithURLRequest: 


[NSURLRequest requestWwWithURL: [NSURL URLWithSstring:url]]]; 
webSocket.delegate = self; 
[webSocket open]; 





如 果 要 发 送 消 息 ， 则 调用 WebSocket 的 send 方 法 ， 最 终 退 出 界面 的 
时 候 可 以 调用 dlose 方 法 来 天 闭 掉 连接 。 


当然 ， 要 想 真 正 运 行 一 个 聊天 室 ， 还 需要 有 一 个 服务 器 的 支持 。 可 
以 使 用 WebSocket 开 源 网 站 提供 的 服务 器 地 址 ， 
ws: //echo.websocket.org。 耕 想 要 自己 搭建 一 个 WebSocket 服 务 嚣 ， 可 
使 用 Java-WebSocket 库 写 一 个 JavaSE 的 程序 ， 用 于 将 发 布 者 的 消息 转发 
给 所 有 订阅 者 。 如 果 想 要 真正 部 署 到 WebSever 上 ， 可 以 使 用 Tomcat 容 
器 来 运行 一 个 JavaEE 的 Servlet， 这 个 Servlet 可 以 使 用 javax.websocket 包 
中 WebSocket 相 关 的 类 来 构建 一 个 转发 程序 ， 从 而 将 发 布 者 的 消 轧 转发 
给 所 有 订阅 者 。 





11.7 未 章 小 车 
在 实现 了 上 述 所 有 模块 之 后 ， 最 终 构建 的 直播 系统 如 图 11-9 所 示 。 


WebSocket 3 
Fa 指令 控制 中 心 


Pe LiveServer 
Er 流 媒 体 中 心 








\ HttpServer 


漂 度 中 心 


图 11-9 


如 图 11-9 所 示 ， 首 先 来 看 主播 端 (Anchor) ， 主 播 要 想 开 播 ， 应 先 
去 请 求 调度 中 心 的 开播 接口 ， 调 度 中 心 会 返回 两 个 地 址 ， 一 个 是 流 媒 体 
中 心 的 地 址 ， 一 个 是 指令 控制 中 心 的 地 址 ， 然 后 主播 会 拿 着 流 媒 体 中 心 
地 址 去 连接 Live 服 务 器 ， 连 接 成 功 之 后 就 可 以 推 流 了 ; 接着 拿 着 指令 控 
制 中 心 的 地 址 去 连接 WebSocket 服 务 器 ， 连 接 成 功 之 后 就 可 以 接受 观众 
进入 房间 、 聊 天 、 礼 物 等 指令 ， 也 可 以 发 送 禁 言 、 踢 人 等 指令 。 再 来 看 
看 观众 端 (Audience) ， 为 了 加 快 用 户 的 首 屏 时 间 〈 从 点 击 进 入 某 个 主 
播 的 房间 开始 ， 到 看 到 主播 视频 的 时 间 称 为 首 屏 时 间 ) ， 系 统 中 所 有 展 
示 房 间 的 位 置 都 会 元 余 这 个 主播 的 流 媒体 地 址 字段 ， 所 以 不 用 请 求 
HttpServer 就 可 以 直接 观看 这 个 主播 的 直播 。 但 是 ， 为 了 继续 和 主播 友 
生 聊 天 、 送 礼物 等 交互 行为 ， 并 且 验 证 上 自己 的 身份 是 否 合法 〈 可 能 被 主 











播 禁 言 或 者 踢 掉 ) ， 还 要 请 求 HttpServer 拿 到 指令 控制 中 心地 址 ， 然 后 
去 连接 WebSocket 服 务 器 ， 如 果 连 接 成 功 就 可 以 接收 到 指令 以 及 发 送 对 
应 的 指令 。 这 样 ， 通 过 这 些 模块 的 共同 交互 束 构 建 出 了 一 个 可 用 的 直播 
系统 。 但 是 ， 要 想 让 这 个 直播 系统 表现 得 更 好 ， 还 有 一 些 细节 需要 处 

理 ， 比 如 对 弱 网 环境 下 主播 端的 处 理 ， 加 快 拉 流 端的 首 屏 时 间 ， 两 端 利 
用 统计 数据 来 帮助 我 们 完善 整个 系统 的 迭代 更 新 等 。 





第 12 章 ”直播 应 用 中 的 关键 处 理 


第 11 章 中 已 经 将 第 5 章 的 播放 器 项 目 改 造成 了 一 个 可 用 的 拉 流 问 播 
放 需 ， 并 将 第 10 章 中 的 视频 录制 喜 改 造成 了 一 个 可 用 的 推 滨 工 具 。 本 章 
会 基于 第 11 章 可 用 状态 下 的 推 滨 工 具 和 拉 流 播放 器 进行 改进 ， 做 一 些 关 
键 处 理 ， 以 达到 一 个 企业 级 直播 产品 的 要 求 。 


12.1 直播 应 用 的 细 市 分 析 


本 节 会 分 两 个 部 分 来 分 析 推 流 端 和 拉 流 端 在 实际 生产 过 程 中 过 到 的 
问题 ， 然 后 会 给 出 实现 思路 ， 而 这 些 问题 应 该 是 直播 产品 都 会 过 到 的 ， 
并 且 有 可 能 是 读者 现在 最 头疼 的 问题 。 所 以 ， 下 面 逐 一 分 析 并 提出 解决 
问题 的 方法 。 








12.1.1 推 沉 端 细节 分 析 
1. 自 适应 码 率 


网 络 环境 不 稳定 一 直 困 扰 着 部 分 主播 ， 特 别 是 在 直播 场景 中 ， 这 其 
中 既 包 括 一 些小 运营 商 的 上 行 融 冤 分 配 不 合理 、 域 名 解析 错误 等 因素 导 
致 的 问题 ， 也 包括 网 络 拌 动 、 暂 时 的 网 络 链 路 拥 埠 等 问题 ， 这 使 得 观众 
端 无 法 流畅 地 观看 主播 的 表演 ， 也 让 直播 无 法 继续 。 基 于 用 户 在 直播 中 
的 这 个 痛 点 ， 我 们 采用 自动 升降 码 率 技术 来 解决 这 个 问题 。 解 决 方案 就 
是 : 实时 根据 主播 所 处 的 网 络 环境 ， 调 整 主 播 的 视频 码 率 ， 以 达到 观众 
端 可 以 流畅 观看 主播 以 及 与 主播 互动 的 效果 。 


2. 数 据 统计 


对 于 主播 端的 数据 统计 是 非常 重要 的 ， 因 为 它 能 反映 出 平台 内 主播 
的 网 络 状况 ， 和 直播 时 长 等 行为 ， 也 是 所 有 直播 产品 必须 做 的 事情 。 统 计 
的 数据 包括 开始 直 揪 时间、 连接 CDN 推 流 节 点 服务 器 的 连接 时 长 、 推 流 
时 长 、 丢 帧 率 、 推 流 的 平均 码 率 、 目 动 升 降 码 率 的 变动 表 等 。 通 过 这 些 
统计 数据 ， 产 品 部 门 和 运营 部 门 可 以 针对 性 地 举办 一 些 活动 ， 引 导 主 播 
增加 直播 时 间 ， 也 有 助 于 我 们 推动 CDN 商 给 主播 更 优 的 链 路 节点 ， 还 
可 以 优化 目 动 升降 码 率 策略 。 














12.1.2 ” 拉 流 端 细节 分 析 
1. 重 试 机 制 


由 于 拉 流 播放 器 的 媒体 资源 在 网 络 上 ， 所 以 有 可 能 会 出 现 建立 连接 
失败 的 情况 ， 或 者 寻找 流 信 息 失 败 的 情况 。 基 于 此 ， 要 建立 重 试 机 制 ， 
右 拉 流 播放 器 在 上 述 过 程 中 失败 ， 融 可 以 重新 连接 或 重新 寻找 流 信息 。 


2. 秒 开 视 频 


在 拉 流 播放 器 中 ， 最 重要 的 体验 束 是 观众 点 击 了 一 个 主播 的 房间 之 
后 ， 可 以 在 最 短 的 时 间 内 上 听 到 主播 的 声音 并 看 到 主播 的 国 面 ， 这 在 直播 
领域 称 为 秒 开 视频 。 这 也 是 评判 一 个 直播 App 体 验 最 重要 的 一 点 ， 我 们 
要 做 的 束 是 尽量 缩短 首 屏 时 间 。 实 现 思 路 束 是 ， 当 用 户 点 击 行为 发 生 之 
后 ， 束 直接 月 动 播放 需 ， 然 后 再 跳 转 到 直播 房间 页 面 ， 在 页 面 跳 转 过 程 
中 ， 拉 流 播放 峰 就 已 经 将 一 段 音 频 和 视频 解码 成 功 ， 当 真正 进入 这 个 主 
播 页 面 时 就 已 经 加 载 了 这 个 直播 流 。 虽 然 这 是 客户 问 能 做 到 的 ， 但 是 需 
要 CDNJ 商 的 配合 ， 包 括 视频 关键 帧 的 缓存 、CDN 节 点 的 部 普 、 网 络 
链 路 的 优化 等 。 


3. 数 据 统计 


对 于 拉 流 播放 器 来 说 ， 数 据 统计 也 是 非常 重要 的 ， 其 中 包括 开始 打 
开演 的 时 间 、 打 开 流 花费 的 时 间 、 打 开 流 失败 花费 的 时 间 、 打 开 流 失败 
的 类 型 、 重 试 次 数 、 首 屏 时 间 、 拉 流 时 长 、 卡 顿 次 数 等 。 可 通过 这 些 统 
计 参 数 来 具体 优化 拉 流 播放 器 的 流程 ， 比 如 通过 卡 顿 次 数 来 优化 缓存 大 
小 ， 通 过 打开 流花 费 的 时 间 来 推动 CDN 厂 商 去 做 优化 等 。 统 计数 据 是 最 
基本 的 ， 只 有 这 些 统计 数据 的 存在 ， 我 们 才 有 开 上 略 支 撑 的 依据 。 


上 述 征求 其 实 是 一 个 成 熟 的 直播 产品 部 应 该 有 具有 的 功能 ， 现 在 市 者 
这 些 问 题 与 实现 思路 继续 学 习 后 面 的 章节 吧 。 























12.2 ” 推 流 闹 的 天 键 处 理 


本 节 将 针对 推 流 端 来 解决 12.1 节 提出 的 问题 ， 主 要 还 是 针对 复杂 的 
网 络 环境 来 优化 我 们 的 推 流 策略 ， 以 便 让 整个 直播 可 以 流畅 进行 ， 同 时 
也 要 将 整个 直播 过 程 中 主播 的 直播 状态 以 统计 数据 的 形式 上 报 给 服务 
器 ， 从 而 方便 后 续 的 迭代 改进 。 所 以 本 节 分 为 两 部 分 ， 第 一 部 分 是 将 自 
适应 码 率 策略 集成 入 我 们 的 系统 ， 第 二 部 分 是 采集 具体 直播 过 程 中 的 数 
据 ， 并 分 析 这 些 数据 将 来 可 能 产生 的 意义 。 请 读者 汪 着 以 上 两 个 问题 开 
和 本 节 的 学 习 。 











12.2.1 目 适 应 人 码 率 的 实践 


自 适 应 人 码 率 策略 解决 的 问题 或 者 适用 的 场景 已 经 在 12.1.1 节 中 介绍 
了 ， 如 果 对 这 个 策略 所 要 解决 的 问题 还 不 是 很 清楚 ， 建 议 再 看 看 相应 的 
分 析 。 下 面 来 看 实现 思路 : 在 推 流 过 程 中 ， 我 们 可 以 根据 当时 主播 的 网 
络 情况 ， 测 算出 网 络 出 口 带 宽 是 多 少 ， 进 而 和 编码 器 产生 的 数据 量 进行 
比较 : 如 果 网 络 出 口 带宽 大 于 编码 器 产生 的 数据 量 ， 则 可 以 提高 视频 质 
量 〈( 增 大 编码 器 的 码 率 设置 ， 同 时 增 大 视频 的 fps 以 达到 更 加 流畅 的 效 
果 ) ， 可 以 让 主播 发 布 出 更 加 优质 的 视频 ， 如 果 网 络 出 口 带宽 和 编码 器 
产生 的 数据 量 相 近 ， 那 么 视频 质量 可 不 做 任何 变化 如果 网 络 出口 带 宽 
小 于 编码 器 产生 的 数据 量 ， 那 就 要 降低 视频 质量 (降低 编码 器 的 码 率 设 
置 ， 同 时 减 小 视频 的 fps 以 免 视频 质量 太 差 ) 以 使 主播 可 以 流畅 地 进行 
直播 。 由 于 整个 流 的 码 率 中 视频 轨 码 率 达 90% 以 上 〔 视 频 轨 码 率 默 认 设 
置 为 600Kbps， 音 频 轨 码 率 默 认 设置 为 64Kbps) ， 所 以 只 需 处 理 视频 轨 
的 设置 就 能 满足 大 部 分 场景 ， 整 体 实现 结构 如 图 12-1 所 示 。 
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图 12-1 


图 12-1 中 所 示 的 流程 为 ， 摄 像 头 采集 出 的 YUV 数 据 经 由 编码 器 进行 
编码 ， 成 为 H264 数 据 ， 然 后 Muxer 模 块 将 H264 数 据 进 行 封 装 ， 并 发 送 到 
流 媒 体 服 务 器 上 (这 里 的 实现 是 使 用 CDN 的 推 流 节点 ) ， 在 发 送 之 后 由 
网 络 带宽 监测 模块 来 监测 实际 的 网 络 上 行 带宽 ， 然 后 经 过 一 定 的 策略 调 
整 反馈 给 编码 器 ， 再 进行 码 率 设置 。 因 此 ， 整 个 系统 中 有 三 个 核心 模 
块 : 第 一 个 是 网 络 带 宽 监 测 模块 ;第 二 个 是 码 率 调整 策略 ; 第 三 个 是 实 
时 改变 编码 器 的 码 率 。 


1. 网 络 剖 宽 监 测 模块 


这 个 模块 不 仅 要 能 够 监测 网 络 上 行 带宽 ， 也 要 能 够 监测 编码 器 编码 
出 来 的 码 率 是 多 少 ， 这 样 才 可 以 进行 对 比 ， 从 而 确定 当前 网 络 上 行 带 视 
古 否 足以 将 编码 希 编 码 出 来 的 视频 帧 发 布 到 CDN 节 点 服务 右上 。 为 了 方 
便 下 文中 的 讨论 ， 首 先 统一 一 下 术语 ， 网 络 上 行 带宽 称 为 发 送 码 率 ， 编 
码 器 编码 出 来 的 码 率 称 为 压缩 码 率 。 而 在 监测 的 过 程 中 ， 仅 看 某 一 时 刻 
的 两 个 码 京 不 足以 反映 问题 ， 应 该 要 监测 一 个 窗口 时 间 段 的 平均 码 率 ， 
而 这 个 窗口 的 时 间 可 以 根据 自己 的 场景 进行 配置 〈3 一 10s 痢 可 以 ) 。 首 
先 定义 一 个 窗口 码 率 的 结构 体 ， 代 码 如 下 : 











typedef struct WindowBitRate { 

int StartTimeInSecs ， 

int endTimeInSecs 

Int bitRate ， 

WindowBitRate() { 
this->startTimeInSecs = 0; 
this->endTimeInSecs = 0; 
this->bitRate = 0; 


} 

void update(int startTimeInSecs, int endTimeInSecs, int bitRate) { 
this->startTimeInSecs = startTimeInSecs,; 
this->endTimeInSecs = endTimeInSecs,; 
this->bitRate = bitRate,; 


void clone(WindowBitRate *windowBitrate) { 
this->startTimeInSecs = windowBitrate->startTimeInSecs; 
this->endTimeInSecs = windowBitrate->endTimeInSecs,; 
this->bitRate = windowBitrate->bitRate; 


} 
} WindowBitRate; 





这 个 窗口 的 结构 体 将 开始 时 间 、 结 束 时 间 以 及 平均 码 率 都 封装 了 起 
来 ， 而 BitRate-Monitor 中 为 了 记录 发 送 码 率 和 压缩 码 率 ， 并 且 为 了 让 这 
两 种 类 型 的 码 率 可 以 对 应 上 ， 声 明了 四 个 变量 ， 分 别 代表 上 一 个 窗口 的 
压缩 码 率 和 发 送 码 率 以 及 当前 窗口 的 压缩 码 率 与 发 送 码 率 ， 代 码 如 下 : 








WindowBitRate *sendLastwindowAVGBitrate; 
WindowBitRate *sendCurWindowAVGBitrate; 
WindowBitRate *compressLastwWindowAVGBitrate; 
WindowBitRate *compressCurwindowAVGBitrate; 





统计 过 程 结 构 如 图 12-2 所 示 。 


| CDN 
Encoder Publisher 推 济 节 点 


后 的 窗口 数 
据 量 大 小 


BitRateMonitor 
1. void statisticsCompressData(double timeMills, int size) 
2. Void prePulishPkt() && void publishpktSuccess(int pktSize) 





图 12-2 


在 图 12-2 中 ， 统 计 码 率 的 模块 用 BitRateMonitor 类 来 表示 ， 待 编码 器 
编码 出 一 帧 之 后 ， 可 以 将 这 一 帧 的 时 间 惟 和 这 一 帧 的 大 小 来 调用 
statisticsCompressData 方 法 ， 这 个 方法 会 将 这 一 帧 放 到 合适 的 窗口 中 ， 

如 果 满 足 这 个 窗口 的 统计 ， 则 会 计算 出 这 个 窗口 的 平均 码 率 是 多 少 ， 
当 积 斤 出 一 个 压缩 码 率 的 窗口 ， 就 珊 隆 到 compressSAVGBitRate 的 Last 
中 ， 并 且 更 新 当前 的 开始 时 间 、 结 束 时 间 以 及 平均 码 率 。 


Publisher 模 块 也 一 样 ， 在 发 送 一 个 AVPacket 结 构 体 之 前 ， 要 调用 这 
个 类 的 prePublishPkt 方 法 ， 待 发 送 结束 之 后 ， 再 将 这 个 AVPacket 的 大 小 
调用 publishPktSuccess 方 法 ， 这 个 方法 把 发 送出 去 的 大 小 都 累积 起 来 ， 
等 到 积攒 够 了 一 个 窗口 之 后 就 克隆 到 sendAVGBitRate 的 Last 中 ， 并 且 更 
新 当前 的 开始 时 间 、 结 束 时 间 以 及 平均 码 率 。 注 意 Publisher 中 的 时 间 惟 
是 发 送 的 相对 时 间 戳 ， 用 于 衡量 当前 一 个 窗口 时 间 内 发 送出 去 了 多 大 容 
量 的 数据 ， 以 此 来 记录 当前 网 络 上 行 带 宽 是 多 少 。 


2. 人 码 率 调整 策略 


上 面 统 计 出 来 的 窗口 码 率 、 压 缩 窗 口 码 率 和 发 送 窗口 码 率 的 时 间 不 
一 定 是 对 应 的 。 也 就 是 说 ， 有 可 能 会 出 现 压 缩 窗口 码 率 记录 的 是 时 间 范 





























围 为 [105，110] 秒 内 的 压缩 码 率 ， 发 送 窗口 码 率 记 录 的 却 是 [100，105] 
秒 内 的 发 送 码 率 ， 这 样 束 没有 参考 的 依据 了 。 上 所 以 ， 上 面 为 每 一 种 类 型 
的 窗口 码 率 都 做 了 一 个 Last 和 一 个 Current 这 两 个 窗口 码 率 。 在 比较 的 时 
候 ， 应 该 先 选 取 正 确 的 对 应 顺序 ， 然 后 再 取出 码 率 ， 这 才 是 期 待 的 发 送 
码 率 和 压缩 码 率 ， 代 码 如 下 : 











int compressAVGBitrate = compressCurWindowAVGBitrate->bitRate; 
int sendAVGBitrate = sendCurwindowAVGBitrate->bitRate; 
int curCurDiff = abs(compressCurwWindowAVGBitrate->startTimeInSecs - 
sendCurwWindowAVGBitrate->startTimeInSecs); 
int curLastDiff = abs(compressCurWindowAVGBitrate->startTimeInSecs - 
sendLastwindowAVGBitrate->startTimeInSecs); 
int lastCurDiff = abs(compressLastwWindowAVGBitrate->startTimeInSecs - 
sendCurwWindowAVGBitrate->startTimeInSecs); 
int lastLastDiff = abs(compressLastWindowAVGBitrate->startTimeInSecs - 
sendLastwindowAVGBitrate->startTimeInSecs); 
if (curCurDiff <= curLastDiff && curCurDiff <= lastCurDiff 
&& curCurDiff <= lastLastDiff) { 
compressAVGBitrate = compressCurWindowAVGBitrate->bitRate,; 
sendAVGBitrate = sendCurWindowAVGBitrate->bitRate; 
} else if (curLastDiff < curCurDiff && curLastDiff <= lastCurDiff && 
curLastDiff <= lastLastDiff) { 
compressAVGBitrate = compressCurWindowAVGBitrate->bitRate,; 
sendAVGBitrate = sendLastwindowAVGBitrate->bitRate; 
} else if (lastCurDiff < curCurDiff && lastCurDiff <= curLastDiff && 
JaSstCurDiff <= lastLastDiff) { 
compressAVGBitrate = compressLastWindowAVGBitrate->bitRate; 
sendAVGBitrate = sendCurWindowAVGBitrate->bitRate; 
} else if (lastLastDiff < curCurDiff && lastLastDiff <= curLastDiff && 
lastLastDiff <= lastCurDiff) { 
compressAVGBitrate = compressLastWindowAVGBitrate->bitRate; 
sendAVGBitrate = sendLastwindowAVGBitrate->bitRate; 





这 样 取出 来 的 compressAVGBitrate 和 sendAVGBitrate 就 代表 了 同一 
个 时 间 段 内 的 压缩 码 率 和 发 送 码 率 。 我 们 的 目的 就 是 按照 发 送 码 率 反 馈 
给 编码 器 来 调整 压缩 码 率 ， 而 得 到 的 这 两 个 值 只 是 一 个 时 间 窗 口内 的 
值 ， 有 可 能 这 段 时 间 内 发 生 了 网 络 拌 动 ， 不 能 仅 使 用 这 个 值 去 盲目 地 设 
置 编码 器 的 码 紊 。 比 较 稳妥 的 集 略 是 设置 一 个 周期 ， 比 如 5 个 窗口 的 时 
间 长 度 ， 然 后 使 用 几 个 窗口 的 发 送 平 均码 紊 去 设置 直到 编码 器 改变 人 码 
率 。 但 是 这 种 策略 只 能 作为 降 码 率 的 条 件 ， 因 为 这 种 统计 方式 统计 出 来 
的 发 送 码 率 不 可 能 会 大 于 压缩 码 率 ， 发 送 模块 发送 的 数据 量 不 可 能 多 于 
编码 器 编码 出 来 的 H264 数 据 的 数据 量 。 因 此 ， 如 果 想 要 做 到 升 码 率 ， 
就 需要 在 策略 中 加 上 当前 H264 队 列 大 小 的 变化 趋势 ， 比 如 队列 大 小 一 
直 在 0 和 1 之 间 进 行 变化 ， 则 代表 编码 器 编码 出 来 一 个 视频 帧 ，Publisher 
模块 就 立马 将 它 发 送出 去 ， 这 时 我 们 就 可 以 闯 试 去 上 升 码 率 ; 如 果 队 列 
的 变化 趋势 在 队列 大 小 的 10% 一 70% 范 围 内 徘徊 ， 则 代表 有 可 能 网 络 发 














生 拌 动 ， 用 户 端 可 能 会 出 现 卡 顿 ， 延 述 在 慢 慢 增 大 ， 可 以 暂时 不 做 任何 
处 理 ， 如 果 队 列 趋势 一 直 在 70% 以 上 ， 说 明 Publisher 模 块 不 足以 将 编码 
器 编码 出 来 的 视频 帧 发 送出 去 ， 这 时 就 应 该 将 前 面 得 出 的 这 个 周期 的 平 
均 发 送 码 率 作用 到 编码 器。 在 大 部 分 场景 中 ， 升 码 率 一 般 都 会 比较 保 

守 ， 可 以 称 之 为 " 慢 慢 升 ”， 降 码 率 相 对 于 升 码 率 来 讲 可 以 快速 ， 可 以 称 
为 “快速 降 ”， 这 两 种 策略 结合 称 为 目 适 应 码 率 策 略 ， 这 个 策略 可 增加 整 
个 直播 过 程 的 流畅 度 。 


3. 实 时 改变 编码 器 的 码 率 


系统 中 使 用 的 编码 器 可 以 有 三 种 ， 即 iOS 平 台 使 用 VideoToolbox 来 
编码 视频 ，Android 平 台 使 用 MediaCodec 或 FFmpeg (使 用 libx264) 来 编 
码 视频 。 


(1) VideoToolbox 动 态 码 率 设 置 


使 用 VideoToolbox 硬 件 编码 器 API， 对 系统 的 要 求 必须 是 iOS 8.0 以 
上 上 。 对 于 Video-Toolbox 的 动态 人 码 率 设置 比较 人 简单， 直接 对 编码 器 会 话 设 
置 码 率 与 fps 就 可 ， 代 码 如 下 : 














- (void) settingMaxBitRate:(int)maxBitRate avgBitRate:(int)avgBitRate 
fps:(int)fps; { 
VTSessionSetProperty(EncodingSession, 
kVTCompressionPropertyKey_MaxKeyFrameInterval, 
(_ bridge CFTypeRef )(@(fps) ) ) ; 
VTSessionSetProperty(EncodingSession, 
kVTCompressionPropertyKey_ExpectedFrameRate, 
(_ bridge CFTypeRef)(@(fps))); 
VTSessionSetProperty(EncodingSession, 
kVTCompressionPropertyKey_DataRateLimits, 
( bridge CFArrayRef )@[@(maxBitRate / 8), @1.0]); 
VTSessionSetProperty(EncodingSession, 
kVTCompressionPropertyKey_AverageBitRate, 
(_ bridge CFTypeRef )@(avgBitRate)); 





(2) MediaCodec 动 态 码 率 设置 


使 用 MediaCodec 硬 件 编码 器 API， 对 于 系统 的 要 求 必 须 是 Android 
4.3 以 上 。 在 Android 系 统 4.4 以 上 提供 了 使 用 Bundle 形 式 动态 配置 编码 需 
内 部 参数 的 API， 代 码 如 下 : 





Bundle bitRateBundle = new Bundle(); 


bitRateBundle.putInt(MediaCodec .PARAMETER_ KEY_VIDEO_ BITRATE, targetBitRate); 
mEncoder .setParameters(bitRateBundle) 





这 种 方法 在 笔者 测试 的 过 程 中 ， 效 果 非 常 差 .很 多 设备 只 要 一 改变 
码 率 ， 视 频 质 量 就 会 立即 下 降 ， 所 以 不 建议 大 家 使 用 。 笔 者 给 出 的 建议 
是 这 样 的 ， 如 果 设 备 是 5.0 系 统 以 上 ， 系 统 为 MediaCodec 提 供 了 一 个 
reset 方 法 ， 调 用 这 个 方法 之 后 就 可 以 去 重新 配置 各 个 参数 ， 最 后 把 重新 
创建 出 来 的 Surface 类 型 的 MediaCodec 的 InputSurface 传 到 底层 ， 创 建 出 
EGLDisplay， 然 后 进行 编码 操作 ， 代 人 码 如 下 : 





public void reConfig(int width, int height, int bitRate, int frameRate) 
throws Exception { 
if (Build.VERSION.SDK_INT >= Build.VERSION CODES.LOLLIPOP) { 
try { 
if (mEncoder != nul1) { 
mEncoder .reset(); 


MediaFormat format = MediaFormat.createVideoFormat (MIME_TYPE, 
width, height); 
format .SetInteger(MediaFormat .KEY_COLOR_FORMAT, 
MediaCodecInfo,.CodecCapabilities.COLOR_ FormatSurface); 
format .setInteger(MediaFormat ,KEY_BIT_RATE， 
bitRate - MEDIA_CODEC_NOSIE_DELTA) ， 
format .setInteger(MediaFormat ,KEY_FRAME_RATE，TframeRate ) ; 
format .setInteger(MediaFormat ,KEY_CAPTURE_RATE，TframeRate ) ; 
format .setInteger(MediaFormat ,KEY _I_FRAME_INTERVAL， IFRAME_ INTEF 
mEncoder .configure(format, null, null, 
MediaCodec .CONFIGURE_FLAG_ ENCODE); 
mInputSurface = mEncoder ,createInputSurface() ; 
mEncoder .start(); 
} catch (Exception e) { 
throw e; 


} 
} else { 

throw new UnMatchedException(" 系 统 版 本 不 匹配 ")，; 
} 





上 述 代 码 比 较 简 单 ， 首 先 要 判断 设备 的 系统 Android 的 版 本 代号 在 
Lollipop (5.0 系 统 ) 之 上 ， 然后 调用 reset 方 法 ， ee 
一 定 要 重新 获取 这 个 编码 器 的 InputSurface， 最 终 调用 start 方 法 。 如 果 设 
备 的 系统 版 本 不 在 5.0 以 上 ， 那 么 就 先 销毁 整个 编 但 器 ， 然 后 以 重新 建 
并 编码 器 的 方式 来 达到 动态 设置 码 率 与 fps 的 需求 。 相 比较 而 言 ， 第 二 
种 方法 的 开销 会 比较 大 ， 但 是 对 于 版 本 在 5.0 系 统 以 下 的 设备 来 说 ， 这 
也 是 唯一 的 一 种 方法 。 


(3) FFmpeg 动 态 码 率 设置 








虽然 使 用 了 FFmpeg 来 进行 软件 编码 ， 但 是 其 内 部 还 是 使 用 libx264 
来 实现 的 。 所 以 设置 动态 码 率 时 ， 最 终 还 是 会 调用 到 libx264 库 中 的 动态 
改变 码 率 ， 通 过 查看 FFmpeg 的 源码 文件 libx264.c 可 以 知道 ， 要 想 调用 到 
libx264 库 的 reconfig 方 法 ， 需 要 改变 rc_buffer_size 变 量 ， 代 人 码 展示 如 下 : 





if (x4->params.rc.i vbv_buffer_size != ctx->rc_buffer_size / 1000 || 
x4->params.rc.i vbv_max_bitrate != ctx->rc_max_rate / 1000) { 
x4->params.rc.i vbv_buffer_size = ctx->rc_buffer size / 1000; 
x4->params.rc.i vbv_max_bitrate = ctx->rc_max_rate / 1000; 
x264_encoder_reconfig(x4->enc, &x4->params); 

} 








这 对 FFmpeg 的 版 本 是 有 一 定 要 求 的 ， 在 FFmpeg 的 2.1 版 本 中 是 不 文 
持 libx264 的 动态 改变 码 率 的 ， 而 上 述 这 段 代码 摘 目 FFmpeg 的 2.8.5 版 本 
的 libx264.c 源 码 文 件 中 。 所 以 客户 端的 代码 如 下 : 








void VideoX264Encoder::reConfigure(int bitRate) { 
pCodecCtx->rc_max_rate = bitRate; 
pCodecCtx->rc_min_rate = bitRate; 
pCodecCtx->rc_buffer_size = bitRate * 3; 
pCodecCtx->bit_rate = bitRate,; 

} 








Me 术 代 码 ， 就 可 以 达到 使 用 软件 编码 需 动 态 改 变 码 率 的 需 





人 至此， 分 析 完 了 了 节 后 一 个 模块 。 再 回顾 整个 流程 ， 首 先 使 用 码 率 监 
测 模 块 ， 将 编码 器 编码 出 来 的 视频 平均 码 率 和 Publisher 友 送 的 平均 码 率 
统计 出 来 ;然后 根据 这 两 个 码 率 再 加 上 这 一 段 时 间 内 的 队列 变化 趋势 得 
出 一 个 合适 的 编码 器 应 该 编码 的 码 率 〈 有 可 能 比 当前 编码 器 的 码 率 设 置 
要 局 一 些 ， 也 有 可 能 低 一 些 ) ;最 后 将 这 个 码 率 设置 给 编码 器 。 如 何 让 
编码 器 在 运行 过 程 中 动态 设置 码 率 ， 我 们 也 给 出 了 详尽 的 解释 。 按 照 以 
上 思路 ， 读 者 可 以 去 完成 自己 产品 中 的 自 适 应 码 率 全 上 略 ， 也 可 以 参考 代 
码 仓库 中 的 源码 ， 以 便于 深入 理解 。 























12.2.2 ”统计 数据 保证 后 续 的 应 对 策略 


本 节 整 理 推 流 端 应 该 统计 哪些 数据 ， 以 便 给 开发 部 门 和 产品 部 门 提 
供 后 续 欠 代 的 方向 ， 给 运营 部 门 提供 数据 的 文 持 。 在 真正 开始 统计 推 流 
端 业务 场景 下 的 数据 之 前 ， 首 先 要 把 主播 端的 耳 地址 、CDN 推 流 节点 服 
务 器 的 地 址 以 及 主播 的 了 作为 统计 数据 的 基本 信息 。 在 12.1 节 中 总 结 了 
以 下 要 统计 的 数据 ， 其 中 包括 开始 直播 时 间 、 连 接 CDN 推 流 节点 服务 器 
的 连接 时 长 、 推 流 时 长 与 推 流 平均 码 率 、 于 帧 率 、 自 动 升降 码 率 的 变动 
表 等 。 下 面 介 绍 如 何 统 计 这 些 参数 ， 以 及 这 些 参数 有 什么 作用 。 首 先 ， 
定义 PublisherStatistics 类 将 这 些 参数 以 及 这 些 参数 的 操作 封装 起 来 ， 代 
人 码 如 下 : 











class Publisherstatistics { 
private: 
long long startTimeMills; 
int connectTimeMills; 
int publishDurationInSec; 


int totalPushVideoFramecCnt 

int discardVideoFrameCcnt,; 

float publishAVGBitRate; 
public: 


Publisherstatistics(); 

~PublisherStatistics(); 

void connectSuccess(); 

void discardVideoFrame(int discardVideoPacketSize); 

void pushVideoFrame(); 

void stopPublish(); 

char* getAdaptiveBitrateChart(); 

long long getStartTimeMills(){ 
return startTimeMi]ls; 

}; 

int getConnectTimeMills(){ 
return connectTimeMills,; 


/ 
int getPublishDurationInSec(){ 
return publishDurationInSsec; 


}; 
float getDiscardFrameRatio() { 
if(totalpushVideoFrameCcnt > 0){ 
return (float) discardVideoFrameCnt / (float) totalPushVideoFrar 
} else { 
return 0; 


}; 
float getPublishAVGBitRate( ){ 
return publishAVGBitRate; 


}; 
float getExpectedBitRate(){ 
return expectedBitRate; 
}; 
}; 


这 个 类 的 方法 比较 简单 ， 属 于 对 属性 的 操作 。 人 至 于 每 个 参数 的 意义 
以 及 如 何 赋值 ， 下 面 会 依次 给 出 解释 。 


1. 开 始 直 播 时 间 


当主 播 点 击 开 播 的 那个 时 刻 ， 我 们 惑 记录 从 1970 年 1 月 1 日 起 以 宣 秘 
为 单位 的 绝对 时 间 惟 。 记 录 这 个 时 间 惟 的 含义 在 于 ， 可 以 在 后 台 画 出 主 
播 开 播 时 间 点 的 分 布 曲线 ， 针 对 主播 的 开播 时 间 点 ， 运 营 和 客服 可 以 更 
合理 地 分 配 时 间 去 啊 应 主播 的 一 些 需求 ， 开 发 人 员 也 可 以 更 大 力度 地 在 
主播 直播 分 布 最 多 的 时 间 段 内 测试 CDN 厂 商 的 链 路 分 配 以 及 响应 速度 。 
0 在 初始 化 这 个 类 的 构造 函数 中 就 对 变量 startTimeMills 进 行 
赋值 了 。 


2. 连 接 服 务 吉 时 长 


由 于 协议 层 (Protocol Layer) 使 用 的 是 FFmpeg 的 libavformat 模 块 ， 
所 以 统计 连接 时 长 就 在 调用 RecordingPublisher 类 的 init 方 法 执行 结束 之 
后 调用 connectSuccess 方 法 即 可 。 如 果 想 统计 得 更 加 精确 ， 束 在 init 方 法 
调用 FFmpeg 的 avio_open2 方 法 之 前 初始 化 PublisherStatistics 类 ， 之 后 调 
用 connectSuccess 方 法 来 统计 以 宣 秒 为 单位 的 时 间 差 ， 并 以 此 作为 连接 
时 长 。 这 个 连接 时 长 包括 主播 端的 网 络 进行 DNS 解析 的 时 间 和 拿 到 IP 地 
址 之 后 连接 CDN 广 商 的 推 浙 节 点 服务 器 的 时 间 ， 有 助 于 开发 人 员 分 析 当 
前 主播 的 网 络 和 CDN 太 商 分 配 的 链 路 节点 是 否 合理 。 


3. 推 流 时 长 与 推 流 平均 码 率 


推 流 时 长 代表 主播 本 场 直 播 的 时 间 ， 我 们 可 以 在 整个 

Muxer (Publisher) 模块 的 stop 方 法 中 调用 stopPublish 方 法 ， 这 样 就 可 以 
取出 当前 时 间 戳 ， 并 减 去 开始 推 浙 时 间 戳 ， 从 而 得 到 推 流 时 长 。 当 然 ， 
在 stopPublish 方 法 中 也 可 以 计算 出 推 流 的 平均 码 率 信息 。 而 推 流 时 长 和 
平均 码 率 的 信息 也 是 非常 有 意义 的 ， 能 从 一 定 程 度 上 说 明 这 个 主播 的 网 
络 情况 。 针 对 平均 码 率 ， 我 们 可 以 建议 主播 更 换 网 络 〈 如 果 是 小 运营 商 
的 话 )， 或 者 找 CDN 厂 商 分 配 更 合理 的 推 流 节点 ， 针 对 推 流 时 长 ， 运 营 
人 员 可 以 做 一 些 活动 来 刺激 优质 主播 ， 以 提升 推 流 时 长 ， 从 而 增加 社区 
的 内 容 ， 增 加 社区 的 活跃 。 


4. 丢 帧 率 











丢弃 的 视频 帆 的 数目 占 整 场 直播 总 视频 帧 数目 的 比例 ， 每 次 有 一 帧 
视频 帧 被 编码 出 来 之 后 束 调 用 pushVideoFrame 方 法 ， 里 面 的 
totalFrameCnt 则 加 一 ， 待 丢弃 一 个 GOP (也 有 可 能 是 GOP 的 后 半 部 分 ) 
之 后 ， 就 以 丢掉 的 帧 数目 作为 参数 调用 discardVideoFrame 方 法 ， 这 个 方 
法 内 部 会 将 discardFameCnt 加 上 这 个 丢 帧 的 数目 ， 最 终 使 用 
discardFrameCnt 除 以 totalFrameCnt 计 算出 丢 帧 率 。 丢 帧 率 也 是 反应 主播 
网 络 与 链 路 选择 以 及 CDN 广 商 推 流 节 点 的 一 个 指标 ， 拿 这 个 指标 去 和 
CDN 厂 商 交 涉 ， 以 减 小 于 帧 紊 ， 达 到 流畅 播放 的 目的 。 当 然 ， 这 和 自动 
升降 码 率 系统 也 有 关系 ， 这 个 指标 也 有 助 于 开发 人 员 优 化 升降 码 率 系 统 
的 策略 ， 以 降低 丢 帧 率 这 一 指标 。 


5. 自 动 升降 码 率 变动 表 


由 于 我 们 为 系统 加 入 了 自 适 应 码 率 模块 ， 为 了 能 对 这 个 自 适应 人 码 率 
模块 有 一 个 评估 ， 便 于 后 续 开 发 人 员 继 续 夫 代 优化 这 个 模块 ， 因 此 需要 
把 作用 到 编码 如 的 码 率 变 化 情况 统计 下 来 ， 上 报 给 服务 器 。 在 后 台 可 以 
使 用 图 表 展 示 编 码 器 编码 的 平均 码 率 与 Publisher 发 送 的 平均 码 率 的 变化 
， ee 码 率 调整 范围 等 方面 优化 自 适 应 
孔 歼 贰 , 


至 此 ， 分 析 完 了 所 有 的 统计 参数 ， 读 者 可 以 依据 自己 的 产品 场景 加 
入 与 自己 业务 相关 的 统计 参数 ， 以 增强 系统 的 流畅 性 与 稳定 性 。 








12.3” 拉 流 闹 的 关键 处 理 


上 一 节 中 针对 推 流 端 在 实际 生产 过 程 中 遇 到 的 问题 进行 了 修复 ， 并 
且 为 了 给 后 续 的 途 代 以 及 运营 活动 提供 数据 支持 ， 增 加 了 推 流 端 的 数据 
统计 。 本 节 针对 拉 流 端的 实际 问题 提出 具体 的 解决 方案 ， 并 且 也 会 增加 
数据 的 统计 ， 请 读者 带 着 12.1 节 中 对 于 拉 流 端 提出 的 问题 开始 本 节 的 学 
习 吧 。 








12.3.1 重 试 机 制 的 实践 


由 于 拉 流 播放 器 的 媒体 资源 在 网 络 上 ， 因 此 有 可 能 会 出 现在 调用 
find_stream_info 函 数 之 后 ， 这 个 视频 中 的 Stream 还 是 会 解析 不 出 正确 的 
格式 。 命 令 行 工具 的 fftmpeg 或 者 ffplay 去 下 载 或 者 播放 网 络 流 的 时 候 ， 
如 果 不 能 解析 出 正确 的 格式 ， 展 示 的 错误 提示 如 下 : 





Could not find codec parameters for stream © : reason XXX 
Consider increasing the value for the 'analyzeduration' and 'probesize' 
options. 





这 名 错误 提示 的 含义 是 说 ， 不 能 够 找 出 第 一 〈 二 ) 个 流 ， 原 因 可 能 
有 很 多 种 ， 它 提示 我 们 应 该 增加 analyzeduration 和 probesize 选 项 的 值 。 
在 命令 行 工 具 中 可 以 使 用 以 下 命令 行 来 查看 这 几 个 参数 代表 的 意义 : 





ffmpeg -h full | grep probe 





在 终端 键入 上 述 这 行 命令 之 后 ， 则 可 以 看 到 如 下 关键 信息 : 





-probesize : set probing size (from 32 to INT _ MAX) (default 5e+06) 

-analyzeduration : specify how many microseconds are analyzed to probe the 
input (from 0 to INT_MAX) (default 5e+06) 

-fpsprobesize : number of frames used to probe fps (from -1 to 2.14748e+09) 
(default -1) 





以 上 代码 中 有 三 个 主要 参数 可 以 留 给 我 们 设置 ， 且 这 三 个 参数 共同 
用 来 控制 FFmpeg 的 libavformat 模 块 中 的 av_find_stream_info 方 法 的 执行 
时 长 。 第 一 个 参数 是 probesize， 它 从 连接 通道 (当前 场景 束 是 网 络 流 ) 
中 读 出 多 少 个 字 节 层面 来 控制 函数 是 否 结束 ， 即 如 果 从 通道 中 读 出 的 
AVPacket 字 节 量 大 于 设置 的 probesize 这 个 值 ， 束 结 束 find_stream_info 这 
个 函数 ;第 二 个 参数 是 analyzeduration， 它 从 解码 出 来 的 帧 的 时 间 长 度 
层面 来 控制 函数 是 否 结束 ， 即 如 果 从 通道 中 读 出 来 的 AVPacket 解 码 之 后 
的 时 间 长 度 大 于 analyzeduration， 则 结束 这 个 函数 ， 单 位 是 微 秒 ， 第 三 
个 参数 是 fpsprobesize， 它 从 解码 出 来 的 帧 数目 角度 来 控制 函数 是 否 结 
束 ， 默 认 值 是 -1。 如 果 开 发 人 员 不 进行 设置 ， 函 数 内 部 会 赋值 默认 值 为 
20。 所 以 在 命令 行 工 具 〈 无 论 是 ftmpeg 还 是 fftplay) 中 都 可 以 设置 这 三 
个 参数 来 控制 寻找 流 信息 的 时 间 ， 而 在 开发 人 员 编写 代码 的 过 程 中 ， 同 











样 也 可 以 进行 设置 ， 代 码 如 下 : 





AVFormatContext *pFormatCtx; 
pFormatCtx->max_analyze_duration = 20 * 1024; 
pFormatCtx->probesize = 2048; 
pFormatCctx->fps_probe_size = 3; 





一 般 可 以 拿 上 述 ny 自己 的 AVFormatContext， 这 样 既 可 
以 保证 能 解析 出 流 ， 还 能 让 时 间 消 耗 得 比较 少 。 但 是 ， 如 果 碰 到 一 些 比 
届 识 码 率 册 流 或 者 这 些 枯 数 设 置 得 过 小 就 会 导致 解析 不 到 正确 的 流 信 
上 县。 那 如 何 来 判断 是 否 正 确 地 解析 到 流 信 息 了 呢 ? 笔者 在 FFmpeg 的 
libavformat 模 块 的 utils、 c 文 件 中 找到 了 一 份 代码 ， 可 判断 流 信 息 是 否 解析 
成 功 ， 它 的 实现 就 是 要 遍历 出 这 个 Container 中 的 音频 流 和 视频 流 。 首 先 
来 看 音频 流 ， 代 码 如 下 : 











AVCodecContext *audioCodecCtx = audioStream->codec; 

if (!audioCodecCtx->frame_ size && determinable_ frame_size(audioCodecCctx)) 
FAIL("unspecified frame size"); 

if (!audioCodecCtx->sample_rate) 
FAIL("unspecified sample rate"); 

if (!audioCodecCtx->channels) 
FAIL("unspecified number of channels"); 

if (audioCodecCtx->sample_ fmt == AV_SAMPLE_ FMT_NONE) 
FAIL("unspecified sample format"); 

if (audioCodecCtx->codec id == AV_CODEC_ID_DTS) 
FAIL("no decodable DTS frames"); 

if (audioCodecCtx->codec _ id == AV_CODEC_ID_NONE) 
FAIL("unknown codec"); 





上 述 代 码 分 别 对 音频 编码 器 上 下 文中 的 各 个 信息 给 出 了 判断 ， 如 果 
ea 会 调用 FAIL 方 法 。 其 中 FAIL 是 定义 的 一 个 宏 ， 宏 定 
义 如 下 : 








#define FAIL(errmsg) do { \ 
printf("%s", errmsg); \ 
return 0; N 

} while (0) 





这 个 宏 中 会 输出 这 条 错 着 误 信息 ， 并 且 返 回 0， 代表 解析 流 信 息 失 
败 。 接 着 来 看 视频 流 信息 的 判定 ， 代 码 如 下 : 





if (!avctx->width) 
FAIL("unspecified size"); 


if (avctx->pix_fmt == AV_PIX_FMT_NONE) 
FAIL("unspecified pixel format"); 
if (st->codec->codec_ id == AV_CODEC_ID RV30 || 
st->codec->codec_id == AV_CODEC_ID_RV40) 
If (!st->sample aspect_ratio.num && !st->codec->sample_aspect_ratio.num 
&& !Sst->codec_info_nb frames ) 
FAIL("no frame in rv30/40 and no sar"); 


if (audioCodecCtx->codec id == AV_CODEC_ID_NONE) 
FAIL("unknown codec"); 





当 openInput 函 数 返 回 0 的 时 候 ， 代 表 可 能 由 于 这 三 个 参数 的 值 设 置 
过 小 而 导致 解析 流 信息 出 现 了 错误 ， 所 以 需要 重 试 。 过 程 如 下 : 首先 天 
闭 连接 通道 ， 并 释放 AVFormatContext， 然 后 重新 执行 openInput 函 数 。 
在 重 试 的 过 程 中 ， 可 以 增加 probesize 的 值 ， 然 后 执行 find_stream_info 格 
数 。 我 们 可 以 对 重 试 的 次 数 做 一 个 限制 ， 比 如 ， 寿 重 试 3 次 还 是 无 法 找 
到 正确 的 流 信 息 ， 那 么 就 提示 客户 端 寻找 流 信 息 失 败 。 读 者 可 以 参考 代 
码 仓库 中 的 源码 ， 然 后 应 用 到 自己 的 实际 产品 中 。 














12.3.2 ”前 屏 时 间 的 保证 


在 一 个 直播 App 中 ， 观 众 端 最 直观 的 体验 驶 是 首 屏 时 间 的 时 长 。 首 
屏 时 间 指 的 是 从 观众 点 击 一 个 房间 开始 ， 到 看 到 这 个 房间 内 主播 的 画面 
以 及 听 到 主播 声音 的 时 间 。 首 屏 时 间 越 得， 产品 越 流畅 ， 体 验 也 越 好 。 
因此 ， 如 何 缩短 首 屏 时 间 成 为 一 个 直播 App 必 须 持续 优化 的 问题 ， 而 这 
也 是 笔者 在 本 节 要 和 大 家 讨论 的 问题 。 


首先 来 看 拉 流 播放 器 的 整体 架构 图 ， 如 图 12-3 所 示 。 









VideoOutput 维护 线程 
接受 到 这 染指 邻 ， 利 用 CDN 
回 油 函 数 获取 视频 由 拉 流 节 点 


AVSync 
VideoPlayerController 人 维护 解码 线程 Input 


tinit 2 负责 同步 策略 人 :完成 协议 解析 与 解 装 操作 


2stat 3 负责 队列 维护 2. 使 用 软件 或 硬件 解 码 器 解码 
3:destroy 


4:audioCallback Audo Audio Decoder Demuxer Protocol 
5'yideoCallback Queue Queue 


AudioOutput 维护 线程 
利用 回调 函数 获取 数据 
图 12-3 
在 图 12-3 中 ， 最 左边 是 VideoOutput 和 AudioOutput 模 块 ， 其 内 部 由 
自己 维护 线程 来 泻 染 视频 画面 与 音频 数据 ， 整 个 播放 流程 是 由 
AudioOutput 来 驱动 的 ， 当 AudioOutput 播 放 一 帧 音频 帧 时， 惑 会 问 
VideoPlayerController 中 audioCallback 方 法 发 出 请 求 ， 让 它 来 填充 音频 数 





据 。 生 填充 好 音频 数据 之 后 ， 就 发 送 一 个 指令 给 VideoOutput 模 块 ， 让 
它 来 演 染 视频 画面 ， 当 VideoOutput 接 收 到 这 个 指令 之 后 ， 会 向 
VideoPlayerController 中 的 videoCallback 方 法 发 出 请 求 ， 拿 一 帧 与 当前 播 
放 的 音频 帧 对 齐 的 画面 ， 然 后 进行 泻 染 。 最 右 侧 是 mput 模 块 ， 负 责 协议 
解析 ， 解 封装 ， 最 终 使 用 软件 或 者 硬件 解码 堪 将 音 视频 流 解析 为 原始 的 
格式 ， 而 它 的 客户 端 代 人 码 就 是 AVSync 模 块 。AVSync 模 块 是 为 了 做 音 视 
频 同 步 的 ， 但 是 ， 首 先 它 得 维护 一 个 线程 和 音 视 频 队 列 ， 并 负责 调用 
Input 模 块 将 视频 流 最 终 解码 成 为 首 视频 的 原始 数据 ， 然 后 放 入 两 个 队列 
中 ， 以 便 癌 外 提供 获取 音频 数据 的 方法 和 获取 视频 帧 的 方法 ， 其 中 音 视 
频 同步 策略 放 在 获取 视频 帧 的 方法 中 ;而 VideoPlayerController 束 是 核心 
控制 器 类 ， 会 控制 AudioOutput 模 块 、VideoOutput 模 块 、AVSync 模 块 等 
所 有 组 件 的 生命 周期 。 这 就 是 整个 播放 器 的 流程 ， 下 面 就 对 照 这 个 架构 
图 来 分 析 如 何在 整个 流程 中 加 快 首 屏 时 间 。 


首先 ， 要 尽快 让 Input 模 块 完成 find_stream_info 过 程 ， 否 则 永远 不 会 
进入 后 续 的 解码 过 程 甚至 后 续 的 泻 染 过 程 ， 也 就 不 可 能 让 用 户 听 到 声音 
和 看 到 画面 了 。 所 以 要 对 FFmpeg 的 AVFormatContext 设 置 如 下 参数 : 























AVFormatContext *pFormatCtx; 
pFormatCtx->max_analyze_duration = 20 * 1024; 
pFormatCctx->probesize = 2048; 
pFormatctx->fps_probe_size = 3; 





当然 ， 设 置 这 些 参数 加 快 了 find_stream_info 方 法 的 执行 时 间 ， 但 是 
有 可 能 (概率 比较 低 ) 导致 解析 出 来 的 流 没 有 正确 的 信息 ， 但 12.3.1 节 
中 己 经 给 出 了 重 试 机 制 ， 可 以 保证 这 种 异常 情况 正确 解决 。 这 个 设置 也 
是 直播 播放 右 与 录 播 播放 器 不 同 的 地 方 ， 由 于 录 播 视频 进行 播放 时 肯定 
从 第 一 帧 视频 帧 展示 给 用 户 ， 而 第 一 帧 又 是 关键 帧 ， 所 以 可 以 很 快 解码 
出 视频 帧 ;而 对 于 直播 的 视频 ， 拉 流 播 放 器 不 一 定 在 哪 一 帧 连接 上 来 ， 
所 以 需要 客户 端 和 CDN 三 商 做 优化 ，CDN 广 商会 缓存 关键 帧 ， 尽 量 快 
地 把 关键 帧 给 到 拉 流 播放 器 。 


然后 要 尽快 启动 播放 器 ， 当 观众 端点 击 某 个 主播 的 房间 时 就 调用 播 
放 右 的 init 方 法 ， 而 页 面 的 跳 转 也 需要 100ms 到 500ms 的 时 间 〈 实 际 场景 
中 可 能 会 是 一 个 动画 ) 。 当 跳 转 页 面 完 成 的 时 候 ， 播 放 器 早已 完成 了 初 
始 化 和 解码 前 几 帧 视频 帧 的 工作 ， 直 接 可 以 进行 泻 染 了 。 但 是 在 这 种 场 
景 下 ， 需 要 播放 器 具备 一 种 特性 ， 即 没有 页 面 也 可 以 播放 视频 中 的 音 
频 ， 如 果 播 放 器 现在 不 支持 ， 则 需要 改进 成 这 种 结构 ， 因 为 这 种 结构 对 


于 后 续 的 扩展 《比如 小 窗 播 放 器 等 功能 ) 是 非常 有 益 的 。 由 于 目前 
VideoOutput 组 件 的 初始 化 被 契合 到 VideoPlayerController 的 Init 方 法 中 ， 
所 以 要 将 VideoOutput 组 件 的 初始 化 与 整个 播放 器 的 初始 化 分 开 。 


1.Android 平 台 播 放 右 的 预 加 载 


在 Android 平 台 显示 部 分 使 用 的 是 SurfaceView， 依 靠 SurfaceView 设 
置 的 Callback 中 的 生命 周期 方法 ， 将 Surface 传 递 到 Native 层 构造 出 
ANativeWindow， 然 后 构建 成 为 EGLDisplay， 最 终 由 OpenGL ES 演 染 上 
去 。 之 前 的 播放 器 初始 化 也 是 由 SurfaceView 设 置 的 Callback 中 的 生命 周 
期 方法 onSurfaceCreate 来 触发 的 ， 而 此 次 要 改造 播放 器 的 最 终结 构 ， 并 
脱离 SurfaceView 的 生命 周期 控制 |。 





首先 在 VideoPlayerController 公 布 init 接 口 方 法 : 





bool init(char *URL, JavaVM *g_jvm, jobject obj); 





这 个 方法 的 实现 开辟 了 一 个 新 线程 ， 并 在 这 个 线程 中 实例 化 
AVSync 后 调用 初始 化 方法 来 打开 流 ， 如 果 成 功 ， 则 实例 化 AudioOutput 
并 调用 start 方 法 让 声 音 开 始 播放 ， 然 后 回调 客户 端 代码 表示 已 经 成 功 打 
sa i 


声音 播放 自然 会 回调 设置 给 AudioOutput 的 回调 函数 来 填充 音频 数 
据 ， 而 这 个 填充 首 频 数据 的 方法 就 会 调用 AVSync 模 块 来 填充 音频 数 
据 ， 同 时 判断 如 果 videoOutput 还 没有 被 设置 的 话 ， 则 不 调用 videoOutput 
的 signalFrameAvailable 方 法 ， 这 时 虽然 还 完全 没有 SurfaceView 的 参与 ， 
但 播放 器 已 经 可 以 播放 视频 中 的 首 频 部 分 ， 代 码 如 下 : 











int VideoPplayerController::fillData(byte* outData, size t bufferSize) { 
int ret = bufferSize; 
if(this->isPplaying && synchronizer) { 
ret = synchronizer->fillAudioData(outData, bufferSize); 
if (NULL != videoOutput){ 
videoO0utput->signalFrameAvailable( ); 
} 
} else 
memset(outData, 0, bufferSize); 


return ret; 


二 一 


当 客 户 端 发 生 了 页 面 跳 转 ， 并 且 SurfaceView 已 经 显示 出 来 的 时 
修 ，Callback 的 生命 周期 方法 onSurfaceCreate 就 会 被 触发 ， 此 时 客户 端 
调用 VideoPlayerController 中 的 onSurface-Create 方 法 ， 方 法 实现 如 下 : 








void VideoPlayerController::onSurfaceCreated(ANativewWindow* window, 
int width, int height) { 
if (!videoOutput) { 
Videooutput = new VideoOutput(); 
videoOutput->initOutput(window, screenwidth, screenHeight, 
videoCcallbackGetTex, this); 
}elsef{ 
videoOutput->onSurfaceCreated(window, screenwWidth, screenHeight); 
} 
} 





如 有 果 是 第 一 次 进入 ， 则 会 构建 出 VideoOutput 类 型 的 实例 。 
VideoOutput 也 会 分 为 两 部 分 : 第 一 部 分 是 构造 VideoOutput 的 OpenGL 
ES 上 下 文 与 演 染 线程 ， 当 然 创 建 OpenGL 上 下 文 的 时 候 一 定 要 与 Input 模 
块 的 Uploader 共 享 OpenGL ES 上 下 文 ; 第 二 部 分 是 根据 ANative-Window 
构造 出 要 泻 染 的 EGLDisplay 类 型 的 目标 。 在 VideoOutput 中 ， 
onSurfaceCreated 方 法 就 是 用 来 创建 演 染 目标 EGLDisplay 的 。 


如 果 Activity 跳 转 到 了 别 的 子 页 面 〈 比 如 充值 页 面 ) ，SurfaceView 
也 自然 会 消失 ， 这 时 Callback 的 生命 周期 方法 onSurfaceDestroyed 会 被 触 
发 ， 客 户 端 应 该 调用 VideoPlayer-Controller 中 的 onSurfaceDestroyed 方 
法 ， 方 法 实现 如 下 : 














void VideoPlayerController::onSurfaceDestroyed() { 
if (videoOutput) { 
videoOutput->onSurfaceDestroyed( ); 
} 
} 





这 里 VideoOutput 公 布 的 onSurfaceDestroyed 方 法 是 销毁 在 
onSurfaceCreated 方 法 中 构造 的 Renderer、EGLDisplay 和 根据 SurfaceView 
中 的 Surface 构 建 的 ANativeWwWindow。 注 意 这 个 方法 并 不 会 销毁 OpenGL 
ES 上 下 文 与 泻 染 线程 ， 而 VideoOutput 提 供 的 stop 方 法 才 是 彻底 销毁 
VideoOutput 这 个 实例 ， 也 只 有 在 这 个 播放 器 完全 销毁 的 时 候 ， 才 会 调 
用 VideoOutput 的 stop 方 法 。 


最 终 我 们 将 播放 占 改 造成 了 一 个 预 加 载 的 播放 器 ， 同 时 也 脱离 了 显 


示 界 面 的 控制 ， 而 由 上 自己 的 生命 周期 方法 来 控制 播放 器 状态 ， 使 得 客户 
更 加 方便 ， 同时 也 为 后 续 小 窗口 播放 器 或 者 后 台 播 放 器 提供 了 基 
倒 架 构 。 


2.iOS 平 台 播 放 右 的 预 加 载 


在 iOS 平 台 显 示 部 分 是 日 定义 一 个 UIView,， 在 
VideoPlayerViewController 中 可 实例 化 这 个 UIView， 并 且 将 这 个 UIView 
的 实例 以 subView 的 形式 加 到 这 个 ViewController 中 。 一 般 情况 下 ， 都 是 
使 用 VideoPlayerViewController 中 的 初始 化 方法 来 实例 化 AVSync 并 且 调 
用 openFile 方 法 的 ， 如 果 成 功 打开 流 ， 就 拿 出 视频 的 宽 高 来 实例 化 
VideoOutput， 并 加 到 这 个 ViewController 上 。 在 这 个 流程 中 ， 
VideoPlayerViewController 就 是 一 个 控制 器 ， 当 这 个 播放 器 界面 退出 的 
时 候 ， 就 要 把 整个 ViewController 中 分 配 的 资源 销毁 挤 ， 这 惑 会 造成 整 
个 播放 器 也 不 能 继续 播放 这 个 视频 ， 所 以 我 们 应 该 单独 抽取 一 个 
VideoPlayerController 作 为 控制 嚣 ， 用 来 管理 AVSync 模 块 和 AudioOutput 
模块 ， 声 明 一 个 Protocol 用 来 执行 VideoOutput 的 泻 染 操作 。 当 有 界面 可 
以 用 来 显示 视频 画面 的 时 候 ， 实 现 Protocol 里 面 的 方法 来 做 画面 泻 染 工 
作 ，Protocol 声 明 如 下 : 











@protocol PlayerVideoOutputDelegate <NSObject> 

- (void) openInputSuccess:(NSInteger) textureFramewWidth textureFrameHeight: 
(NSInteger )textureFrameHeight usingHWCodec: (BOOL)usingHWwCodec; 

- (void) signalRenderFrame:(VideoFrame*) videoFrame; 

@end 





在 VideoPlayerController 类 中 声明 这 个 Protocol 类 型 的 delegate， 然 后 
开放 出 一 个 方法 可 以 用 来 设置 delegate， 代 人 码 如 下 : 





@property (nonatomic, readwrite, copy) id<PlayerVideoOutputDelegate> 
videoOutputDelegate; 

- (void) setVideoOutputDelegate:(id<PlayerVideoOutputDelegate>) 
videoOutputDelegate; 





当然 ，VideoPlayerController 必 须 是 一 个 单 例 模式 设计 的 类 ， 因 为 它 
要 在 全 局 都 可 以 访问 到 ， 代 码 如 下 : 





+ (VideoPlayerController *) SharedPlayerController ; 


static dispatch_once_t pred ; 


static VideoplayerController *sharedPlayerController = nil; 
dispatch_once(&pred, 人 ^{ 
sharedPlayerController = [[[self class] alloc] init]; 


/ 
return sharedPlayerController; 


} 





当然 ， 最 重要 的 方法 是 playWithURL， 这 个 方法 的 实现 就 是 实例 化 
AVSync， 并 且 调 用 openFile 方 法 打开 流 ， 如 果 打 开 流 成 功 ， 束 调用 
videoOutputDelegate 的 openInputSuccess 方 法 〈 如 果 videoOutputDelegate 
已 经 被 设置 过 ) ， 接 着 实例 化 AudioOutput 组 件 ， 并 调用 AudioOutput 的 
开始 播放 方法 。 同 时 VideoPlayerController 要 实现 AudioOutput 组 件 中 的 
FillDataDelegate 协 议 ， 在 flAudioData 方 法 中 可 调用 AVSync 模 块 来 填充 
音频 数据 ， 同 时 癌 videoOutputDelegate 发 送 一 个 信号 要 求 VideoOutput 泻 
染 男 面 《如果 videoOutputDelegate 已 经 被 设置 过 ) 。 这 样 就 完成 了 整个 
视频 的 播放 。 如 果 videoOutputDelegate 没 有 被 设置 过 ， 依 然 可 以 播放 视 
频 中 的 声音 部 分 ， 而 当 有 一 个 界面 可 以 用 来 显示 视频 的 画面 部 分 时 ， 那 
么 就 设置 videoOutputDelegate， 并 完成 泻 染 工 作 。 如 果 后 续 要 做 小 窗口 
播放 器 ， 甚 至 是 后 台 播 放 的 时 候 ， 这 个 染 构 依然 可 以 直接 使 用 。 


为 了 达到 秒 开 首 屏 的 极致 体验 ， 还 有 一 点 要 说 明 ， 在 Input 模 块 ， 尺 
量 使 用 CDN 太 丙 提 供 的 HDL 协议 ， 因 为 某 些 CDN 太 商 提 供 的 HDL 协议 
对 于 推 流 端 仍然 同一 个 RTMP 的 地 址 去 做 推 流 ， 而 分 发 给 观众 端的 地 址 
为 http 加 flv 的 格式 ， 这 种 格式 的 find_stream_info 执 行 的 时 间 要 比分 发 的 
rtmp 协 议 的 流 的 时 间 短 ， 所 以 尽量 采用 更 加 先进 的 协议 ， 并 且 大 部 分 的 
CDNJ 商 也 做 了 关键 帧 的 缓存 ， 推 流 CDN 市 点 到 边缘 CDN 市 点 使 用 
Push 的 方式 等 优化 ， 所 以 使 用 CDN 广 商 要 比 自 建 机 房 好 很 多 。 


读者 可 以 络 合 代码 仓库 中 的 源码 进行 分 析 ， 并 应 用 到 目 己 的 产品 











12.3.3 ”统计 数据 保证 后 续 的 应 对 策略 


在 12.2 节 已 经 分 析 了 推 流 端 应 该 要 做 的 数据 统计 ， 以 及 数据 统计 对 
产品 后 续 迭 代 以 及 运营 活动 的 作用 。 本 节 将 带 着 读者 来 完成 拉 流 播放 器 
的 数据 统计 工作 。 首 先 要 把 观众 观看 的 直播 场次 、 观 众 端的 了 地址 以 及 
观众 端 实际 去 拉 流 的 CDN 的 边缘 节点 地 址 作为 基本 信息 。 


1. 开 始 拉 流 时 间 


当 观 众 点 击 开始 观看 一 场 直 播 的 时 候 ， 系 统 获取 当前 的 时 刻 作为 开 
始 拉 流 的 时 间 ， 以 曼 秒 为 单位 ， 这 个 数据 可 以 在 后 台 绘 制 出 观众 观看 直 
播 时 间 的 分 布 图 ， 也 有 助 于 运营 推广 活动 的 时 候 掌 握 应 该 在 哪 一 段 时 间 
段 内 进行 推广 。 此 外 ， 还 可 以 调整 客服 和 后 台 视 频 审 碍 的 人 员 安 排 。 


2. 连 接 时 间 


用 户 端 发 起 一 次 Connect， 如 果 失 败 ， 直 接 上 报 ， 耕 则 记录 Connect 
时 间 ， 单 位 为 怠 秒 。 这 个 数据 有 助 于 开发 人 员 去 推动 CDN 矿 商 分 配 更 优 
质 的 节点 。 此 外 ， 还 可 以 与 前 面 的 观众 IP 地 址 一 块 分 析 是 否 是 某 些小 运 
营 商 导致 的 DNS 劫持 等 事件 。 统 计 方 式 可 以 在 VideoDecoder 类 的 
openInput 方 法 前 后 增加 时 间 统 计 ， 并 计算 时 间 差 得 到 连接 时 间 的 值 。 


3. 自 屏 时 间 


从 用 户 点 击 东 个 主播 头像 开始 到 展示 出 第 一 帧 主播 视频 画面 的 时 
间 ， 这 其 实 是 观众 端 体验 的 一 个 重要 指标 。 首 屏 时间 越 得， 观众 的 体验 
就 越 好 。 可 以 根据 这 个 时 间 来 帮助 开 有 友人 员 进 一 步 优 化 观众 端的 体验 ， 
并 可 以 针对 衣 屏 时 间 长 的 观众 ， 进 一 步 分 析 到 撒 是 主播 问 的 问题 还 是 观 
众 端 网 络 的 问题 。 统 计 方 法 惑 是 当 第 一 帧 视频 帧 被 泻 染 出 来 的 时 候 ， 将 
当前 系统 时 间 减 去 开始 连接 的 时 间 ， 得 到 首 屏 时 间 。 


4. 观 看 时 长 


从 用 户 开 始 观 看 下 播 开始 ， 到 用 户 退 出 本 次 观看 ， 会 有 一 个 观看 时 
长 ， 单 位 是 秒 。 当 然 ， 这 个 观看 时 长 跟 主播 的 内 容 有 很 大 关系 ， 同 时 也 
跟 主播 推 流 的 稳定 度 有 很 大 关系 ,我们 可 以 统计 同一 个 主播 在 不 同 网 络 
环境 下 推 流 的 观众 平均 观看 时 长 来 提示 主播 选择 优质 网 络 的 重要 性 ， 也 




















可 以 换 一 个 维度 去 统计 观众 观看 的 热门 直播 中 ， 平 均 时 长 最 长 的 主播 有 
哪些 ， 还 可 以 玫 助 运营 人 员 筛 选 出 平台 的 优质 红 人 。 


5. 卡 顿 次 数 


当 用 户 界 面 出 现 一 次 Loading 框 或 者 声 首 卡 顿时 ， 说 明 用 户 会 卡 顿 
一 次 。 用 户 卡 顿 越 少 ， 体 验 越 好 ， 这 个 次 数 也 应 该 上 报 给 服务 器 。 根 据 
用 户 的 卡 顿 次 数 ， 可 以 帮助 开 及 人 员 分 析 本 场 直播 中 的 瓶 锋 到 撒 在 哪 
里 。 如 宋 本 场 直 播 中 的 观众 端 都 出 现 了 10 次 以 上 的 卡 顿 ， 那 么 次 明 有 可 
能 是 主播 推 流 的 问题 ， 如 果 是 观众 端的 网 络 链 路 问题 ， 则 可 以 分 析 能 否 
去 优化 播放 器 的 策略 。 统 计 方 法 束 是 在 AVSync 模 块 的 showLoading 方 法 
中 增加 次 数 统计 。 


至 此 拉 流 端的 关键 集 略 介绍 完毕 ， 读 者 可 以 去 代码 仓库 中 分 析 源 
人 码 ， 便 于 深入 理解 。 


12.4 ”本 章 小 结 


本 章 主 要 介绍 了 一 个 企业 级 直播 产品 应 该 做 出 的 优化 与 关键 处 理 。 
首先 进行 了 场景 分 析 并 提出 了 基本 的 解决 方案 ， 其 次 介绍 了 推 流 端 ( 主 
播 端 ) 自 适 应 码 率 的 优化 方案 ， 并 针对 统计 数据 给 出 了 收集 方 采 与 后 续 
处 理 策略 ; 最 后 针对 拉 流 端 (用户 并 ) 的 秒 开 工作 制定 很 多 策略 ， 同 时 
也 介绍 了 统计 数据 的 收集 以 及 后 续 处 理 集 略 。 


第 13 章 ” 工 欲 郑 其 事 ， 必 先 利 其 


工 欲 善 其 事 ， 必 先 利 其 器 。 这 句 话 用 在 开发 人 员 的 工作 中 就 是 要 把 
自己 的 开发 工具 打磨 好 ， 这 样 才 可 以 在 工作 中 游 也 有余。 前 面 章节 中 提 
到 过 的 fftmpeg、ffplay 就 属于 音 视频 开发 中 的 辅助 工具 ， 而 本 章 和 大 家 
一 起 讨论 音 视频 开发 中 常用 的 工具 ， 包 括 内 存 泄漏 的 检测 工具 、Crash 
收集 的 工具 以 及 常用 的 ADB 等 工具 。 其 中 ， 有 些 工 具 并 不 仅仅 是 针对 开 
发 人 员 的 ， 对 于 测试 人 员 也 非常 有 用 。 完 成 本 章 的 学 习 之 后 ， 只 要 读者 
善于 使 用 这 些 工具 ， 在 日 常 工作 中 肯定 可 以 提高 开发 以 及 调试 的 效率 。 














13.1 _ Android 平台 工具 详解 


本 市 主要 介绍 Android 平 台 下 的 常用 工具 ， 大 致 分 为 以 下 几 个 方 
面 : 如 何 使 用 ADB 的 各 个 命令 完成 电脑 和 开发 设备 的 交互 ; 如何 使 用 
MAT 工 具 检 查 Java 端 的 内 存 泄漏 ; 如 何 使 用 工具 检查 Native 层 的 内 存 泄 
漏 ; 如 何 使 用 NDK 的 各 个 工具 解决 编译 以 及 运行 中 的 问题 如何 使 用 
Google 开 源 的 breakpad 来 收集 Native 层 的 Crash。 其 中 ， 熟 练 掌 握 ADB 工 
有 具 与 MAT 工 具 的 使 用 ， 对 于 测试 人 员 来 讲 可 以 提高 定位 问题 的 准确 
度 ， 对 提升 整个 团队 的 效率 是 非常 实用 的 。 





13.1.1 ADB 工 具 的 熟练 使 用 


ADB 的 全 称 是 Android Debug Bridge， 是 Google 给 开发 者 提供 的 一 
个 调试 桥 工 具 。 借 助 这 个 工具 ， 开 发 者 可 以 在 电脑 上 对 Android 设 备 进 
行 很 多 操作 ， 包 括 安装 / 伯 载 App、 和 查看 日 志 、 文 件 操作 、 运 行 Shel 命 令 
等 。 其 实 ADB 就 是 连接 电脑 和 Android 设 备 的 桥梁 。ADB 工 具 是 Android 
的 SDK 目 录 的 platform-tools 目 录 下 的 一 个 命令 行 工 具 。 读 者 奇想 要 在 命 
令 行 下 随意 使 用 这 个 工具 ， 则 需要 将 所 在 的 路 径 配 置 到 path 环 境 变 量 
中 。 下 面 以 Mac 系 统 为 例 ， 展 示 配 置 环境 变量 的 过 程 。 


Mac 的 环境 变量 配置 文件 是 用 户主 目录 下 的 .bash_profile 文 件 ， 如 果 
读者 之 前 没有 配置 过 环境 变量 ， 那 么 系统 默认 是 没有 这 个 文件 的 ， 需 要 
读者 目 己 创建 ， 如 果 已 经 有 了 这 个 文件 ， 那 么 就 键入 以 下 内 容 : 











ANDROIDSDKROOT=sdkpath 
export PATH=$ANDROIDSDKROOT/platform-tools:$PATH 





其 中 ，sdkpath 是 Android SDK 所 在 的 路 径 ， 输 入 完毕 之 后 保存 并 退 
出 ， 然 后 执行 以 下 命令 : 





source ~/.bash_profile 





这 行 命令 是 为 了 让 刚才 的 配置 生效 ， 如 果 不 执行 这 个 命令 ， 就 需要 
重启 电脑 ， 让 系统 重新 加 载 这 个 配置 文件 。 此 时 尝试 输入 adb， 会 出 现 
ADB 这 个 命令 行 工 具 的 众多 提示 。 


下 面 看 看 工作 中 和 帝 用 的 命令 。 表 先 我 们 要 了 解 在 电脑 上 是 否 运行 独 


一 个 adb server， 它 是 用 来 连接 电脑 和 Android 设 备 的 ， 读 者 可 以 执行 以 
下 命令 : 








ps -A | grep adb 





这 行 命令 的 作用 是 列 出 adb 名 字 的 进程 ， 接 着 可 以 看 到 类 似 如 下 的 


提示 : 





2947 ttys004 0:00.04 adb -P 5037 fork-server server 





这 就 告诉 我 们 现在 adb server 已 经 运行 起 来 了 ， 如 果 没 有 这 一 行 提 
示 ， 就 可 以 运行 以 下 命令 来 启动 adb server: 











adb start-server 





这 时 再 查看 adb 名 字 的 进程 ， 可 以 看 到 adb server 正 在 运行 。 当 然 ， 
也 可 以 执行 以 下 命令 来 关闭 adb server: 





adb kill-server 





既然 讲 到 这 里 ， 就 需要 提 到 一 个 经 常 让 开发 者 疑惑 的 问题 ， 即 有 一 
些 Android 设 备 即 使 打开 了 开发 者 模式 也 连接 不 上 我 们 的 电脑 ， 这 是 因 
为 adb ”server 不 认识 这 个 Android 设 备 的 USB 厂 商 ， 所 以 需要 把 USB 的 三 
商 ID 加 入 配置 文件 中 。 接 下 来 笔者 就 以 Mac 系 统 为 例 讲解 如 何 获 得 USB 
的 厂商 ID， 打 开 “ 关 于 本 机 ”， 然 后 选择 “系统 报告 "， 在 人 硬件 选项 中 点 
0 在 里 面 可 以 找到 上 自己 的 设备 ， 然 后 点 击 找 到 厂商 ID， 如 图 
13-1 有 FT 不 。 


在 图 13-1 中 ， 广 商 ID 为 0x18d1， 我 们 需要 将 这 个 厂商 ID 放 到 adb 
server 启 动 读 取 的 配置 文件 中 ， 而 配置 文件 是 哪 一 个 文件 呢 ? 答 案 就 是 
用 户主 目录 的 .android 目 录 下 名 为 adb_usb.ini 的 文件 。 配 置 好 之 后 ， 需 要 
在 命令 行 重新 启动 adb server， 即 执行 如 下 命令 : 


@g@ MacBook Pro 
下 硬件 USB 设备 树 

2 了 集 绩 器 

a Apple 内 置 键盘 / 舱 控 板 
NVMExpress IR 接收 机 
YBRCM20702 Hub 
SATAISATA Express TY ~ USB 主机 控制 时 
SF| Nexus 5X 
Thunderbolt iphone 
USB 
以 太 网 卡 Nexus 5X; 
产品 ID 0x4ee2 
光盘 刻录 品 ID; X4ee 
Sa 厂商 ID: Ox18d1 (Google Inc.) 
光纤 通道 版 本 ; 3.10 
内 存 序列 号 ; 015b3c0ae94618e4 
图 形 卡 /显示 器 速度 ; 最 大 480 Mb/ 秽 
并 行 SCSI 制造 商 ; 
打印 机 位 置 1D; 0x14200000 115 
电源 可 用 电流 (mA): 500 

A 所 需 电流 (mA); 500 
相机 额外 的 操作 电流 (mA); 0 
硬件 RAID 


图 13-1 





adb kill-server 
adb start-server 





然后 利用 以 下 命令 来 得 看 这 个 设备 是 否 连接 上 了 电脑 : 





adb devices -1 





述 命令 用 于 查看 连接 到 电脑 上 的 设备 列表 ， 也 就 是 被 adb server 识 
7 如 果 读 者 是 在 开发 电视 上 的 应 用 ， 那 么 束 不 可 能 使 用 
电视 设备 与 电脑 连接 起 来 ， 而 应 该 使 用 connect 命 令 进行 连 








adb connect 192.168.Xxx.Xx:5555 





这 个 命令 仅 能 连接 同一 个 局 域 网 内 的 设备 ， 默 认 端 口号 是 5555， 该 
命令 执行 成 功 后 ， 则 和 使 用 USB 有 线 连接 一 样 ， 只 不 过 是 通过 TCP 协 议 
进行 操作 的 。Android 设 备 被 成 功 连接 到 电脑 上 之 后 ， 就 可 以 使 用 ADB 
工具 来 操作 Android 设 备 了 。 御 用 的 操作 如 下 。 


1. 安 装 /卸载 App 


如 果 在 电脑 上 有 一 个 apk 文 件 ， 想 要 安装 到 Android 设 备 中 去 ， 可 以 
执行 如 下 命令 : 





adb install test_ audio.apk 





执行 这 个 命令 就 会 将 test_audio.apk 安 装 到 Android 设 备 上 ， 如 果 设 备 
上 已 经 有 了 这 个 包 名 的 应 用 ， 操 作 束 会 失败 ， 如 果 想 直接 窗 新 安装 ， 那 
么 应 该 在 install 后 加 上 -fr 参数 ， 命 令 如 下 : 














adb install -r test_audio,apk 





而 一 般 的 IDE 在 打包 之 后 也 会 执行 这 个 命令 ， 并 将 打包 好 的 apk 安 装 
到 设备 上 。 如 果 要 御 载 一 个 应 用 ， 则 必须 知道 这 个 应 用 的 包 名 ， 因 为 包 
名 是 Android 设 备 上 App 的 唯一 标识 ， 命 令 如 下 : 





adb uninstall com.test.audio 





2. 文 件 操作 


如 果 要 将 应 用 程序 生成 的 文件 从 Android 设 备 中 放 到 电脑 上 ， 或 者 
将 资源 文件 从 电脑 上 放 到 Android 设 备 中 去 ， 就 需要 使 用 提供 的 文件 操 
作 工 具 。 上 述 分 为 两 种 场景 ， 第 一 种 场景 是 将 文件 从 Android 设 备 里 取 
出 来 ， 我 们 称 为 拉 取 文件 ， 命 令 如 下 : 





adb pull /mnt/sdcard/output.wav ./output.wav 





这 行 命令 是 将 Android 设 备 的 SD 卡 根 目录 下 的 output.wav 文 件 取 出 ， 
放 到 电脑 的 当前 目录 下 ， 其 中 /mnt/sdcard 代 表 SD 卡 的 根 目录 。 而 将 资源 
文件 从 电脑 上 放 到 Android 设 备 中 去 ， 则 称 为 推送 文件 ， 命 令 如 下 : 








adb push input.wav /mnt/sdcard/input.wav 








上 述 命 令 是 将 当前 目录 下 的 input.wav 文 件 放 到 Android 设 备 的 SD 卡 


根 目录 下 。 注 意 ， 无 论 是 拉 取 文件 还 是 推送 文件 ， 都 可 以 操作 SD 卡 任 
意 目 录 下 的 文件 ， 但 不 能 操作 其 他 系统 目录 下 的 文件 。 


3 有 卓志 


应 用 程序 运行 过 程 中 ， 在 IDE 中 可 以 使 用 logcat 来 下 看 日 志 ， 如 果 不 
使 用 IDE， 那 么 应 该 使 用 ADB 工 具 提 供 的 logcat 命 令 。 实 际 上 ，IDE 中 的 
logcat 也 是 使 用 ADB 工 具 中 的 logcat 命 令 来 实现 的 。 那 我 们 就 对 应 着 IDE 
中 的 常用 操作 ， 来 看 一 下 使 用 ADB 工 具 如 何 实 现 。 查 看 当前 Android 设 
备 的 所 有 日 志 信息 ， 直 接 使 用 如 下 命令 : 











adb logcat 








如 果 要 清空 现在 所 有 的 日 志 缓 冲 区 ， 则 执行 如 下 命令 : 





adb logcat -c 








其 中 ， 参数 -c 代 表 clear。 而 最 帝 用 到 的 就 是 过 涯 某 个 标签 下 的 日 


二 [uj] 令 如 下 : 





adb logcat -s "AudioEncoder" 





如 末 要 同时 过 小 多 个 标签 ， 则 使 用 如 下 命令 : 





adb logcat -s "AudioEncoder | AudioDecoder" 





其 中 ， 中 间 的 竖 线 代表 或 者 的 意思 。 在 IDE 中 还 有 一 个 比较 重要 的 
功能 ， 就 是 根据 日 志 等 级 进行 过 滤 ， 假设 AudioEncoder 与 AudioDecoder 
中 都 有 Info 级 别 、 Debug 级 询 2 以 及 Error 级 别 的 信息 ， 那 么 想 过 滤 出 Debug 
级 别 的 信息 ， 可 使 用 如 下 命令 : 














adb logcat AudioEncoder:D AudioDecoder:D *:S 





如 果 要 过 小 某 个 进程 的 所 有 日 志 信 息 ， 那 我 们 必须 知道 这 个 进程 的 
ID 〈 即 pid) ， 使 用 的 命令 如 下 : 





adb logcat --pid 20410 





其 中 ， 数 字 20410 代 表 要 查询 的 App 的 进程 ID 号 ， 有 具体 如 何 获得 这 
个 进程 ID 号 ， 下 面 会 有 介绍 。 


ADB 工 具 中 最 常用 的 命令 就 是 这 些 ， 基 本 也 禾 盖 了 IDE 中 所 有 的 功 
能 。 当 然 ，logcat 命 令 里 还 有 输出 为 文件 等 功能 ， 这 里 就 不 做 介绍 了 。 





4. 运 行 Shell 命 令 


使 用 adb shell 命 令 ， 可 以 直接 登录 到 Android 设 备 中 执行 操作 ， 但 是 
在 大 部 分 情况 下 ， 可 能 并 不 是 太 方 便 ， 因 此 可 以 直接 将 执行 的 命令 放 到 
后 面 执行 ， 模 式 如 下 : 











adb shell [command Jine] 





上 面 曾 留 下 一 个 小 问题 ， 如 果 知 道 一 个 App 的 包 名 ， 想 获取 这 个 
App 的 进程 ID， 如 何 处 理 ?” 事实 上 ， 可 以 使 用 如 下 命令 来 查看 : 





adb shell "ps | grep com.test.audio" 





命令 ps 是 列 出 所 有 的 进程 ， 而 后 面 的 竖 线 是 管道 的 意思 ， 即 把 前 面 
ps 命令 的 输出 作为 后 面 命令 的 输入 ， 而 后 面 的 grep 命 令 是 过 滤 操 作 ， 将 
J .test.audio 这 个 进程 名 字 过 滤 出 来 ， 执 行 命令 之 后 可 以 看 到 如 下 结 





UO_a107 20410 513 1073192 .… .. com.test.audio 











可 能 不 同 设 备 得 到 的 结果 不 尽 相 同 ， 但 是 第 二 列 就 是 我 们 想 要 的 进 
程 号 ， 即 20410。 


下 面 再 来 介绍 常用 的 命令 ， 比 如 推送 文件 结束 之 后 ， 看 一 下 是 个 推 
送 成 功 ， 可 以 执行 以 下 命令 ， 





adb shell "cd /mnt/sdcard; ls -1 | grep wav" 





这 行 命令 的 意思 是 ， 先 进入 SD 卡 的 根 目 录 ， 然 后 列 出 所 有 的 wav 文 
件 ， 并 且 有 修改 时 间 的 信息 显示 。 如 果 要 查看 一 个 App 的 内 存 占用 情 
况 ， 可 以 执行 如 下 命令 : 








adb shell dumpsys meminfo com.test.audio 





其 中 ，com.test.audio 是 要 查看 App 的 包 名 ， 执 行 这 个 命令 的 意义 束 
是 得 到 com.test.audio 这 个 App 的 内 存 占用 信息 ， 下 面 选 取 其 中 比较 重要 
的 信息 来 看 一 下 : 





pss Private Private Swappss Heap Heap Hear 

Total Dirty Clean Dirty Size Alloc Free 

Native Heap 8709 8704 0 0 19456 10809 864€ 

Dalvik Heap 8034 8004 0 0 17620 10572 7048 
EGL mtrack 27012 27012 0 0 

TOTAL 67242 47920 13192 18 37076 21381 15694 





从 上 面 的 信息 中 可 以 看 到 ，Native Heap 代 表 Native 层 的 堆 的 大 小 ， 
因为 在 Android 引 擎 中 ， 虽 然 对 每 一 个 App 占 用 的 内 存 大 小 有 定义 ， 但 是 
对 于 App 使 用 Native 代 码 进 行内 存 的 分 配 和 销毁 却 是 不 进行 约束 的 ， 所 
以 这 里 可 以 理解 为 Native Heap， 即 Native 层 所 占用 内 存 的 大 小 ， 如 果 一 
直 在 增长 ， 则 需要 检查 程序 是 否 有 内 存 泄漏 ， 而 对 应 的 Dalvik Heap 则 是 
对 应 的 Java 层 占用 的 内 存 大 小 ， 最 后 一 项 EGL mtrack 则 代表 OpenGL ES 
所 占用 的 显存 大 小 ， 因 为 在 手机 设备 上 都 是 集成 显卡 ， 所 以 没有 单独 的 
显存 ， 而 是 和 内 存 进 行 共享 的 。 所 以 ， 我 们 得 看 内 存 信息 时 ， 也 可 以 得 
到 显存 的 信息 ， 如 果 这 一 行 的 内 存在 无 限 增 大 ， 则 应 该 注意 在 应 用 程序 
中 是 否 有 未 释放 的 纹理 对 象 或 者 帧 缓存 对 象 等 OpenGL ES 对 象 。 


Android 4.4 以 上 版 本 提供 了 一 个 Shell 命 令 进行 录 屏 ， 对 于 测试 人 员 
来 说 ， 可 以 比较 方便 地 录制 自己 的 操作 (可 以 在 设置 中 打开 显示 扩 按 操 
作 ， 会 在 视频 中 有 女 标 点 )， 命 令 如 下 : 























adb shell screenrecord --size 720x1280 --bit-rate 500000 /mnt/sdcard/case- 
1.mp4 





命令 中 的 Size 是 宽 乘 以 高 ， 所 以 要 注意 期 望 的 是 横 板 的 视频 还 是 纵 
版 的 视频 ， 比 特 率 可 以 依据 自己 的 场景 来 设置 ， 最 终 文 件 放置 到 SD 卡 
的 根 目录 下 ， 以 case-1.mp4 作 为 存储 文件 名 。 在 设备 上 执行 完 操 作 后 ， 
可 使 用 快捷 键 Ctrl+C 来 俘 止 整个 视频 的 继续 录制 ， 然 后 使 用 adb pull 命 令 
将 case-1.mp4 拉 取 到 电脑 上 ， 以 进行 播放 操作 ， 这 时 可 以 看 到 我 们 刚才 
执行 的 所 有 操作 。 


在 工作 中 有 可 能 写 出 的 一 些 线程 会 在 后 台 一 直 跑 ， 它 们 有 可 能 是 去 
队列 里 取 数 据 ， 虽 然 这 个 队列 不 是 阻 紧 队列， 但 也 有 可 能 是 开 友 不 小 心 
写 出 的 空转 线程 ， 可 以 使 用 以 下 命令 来 查看 有 没有 空转 的 线程 : 




















adb shell top -t -m 5 





top 命 令 是 查看 进程 占用 CPU 情况 的 指令 ， 在 Android 设 备 中 ，top 指 
令 后 加 上 参数 -t 代 表 查 看 线程 占用 CPU 的 情况 ，-m 代 表 仅 查看 CPU 占用 
最 高 的 5 个 线程 。 如 果 看 到 某 个 线程 占用 CPU 比较 高 ， 开 发 人 员 就 可 以 
注意 是 否 需 要 优化 或 者 更 改 实现 方式 。 


至 此 ，ADB 工 具 的 常用 命令 就 介绍 完了 ， 读 者 可 以 多 加 练习 ， 如 果 
运用 到 日 党 工作 中 ， 一 定 可 以 所 高 工作 效率 。 


13.1.2 MAT 工 具 检 测 Java 端 的 内 存 泄漏 


平常 在 开发 Android 应 用 的 时 候 ， 稍 有 不 慎 就 有 可 能 产生 OOM (Out 
of Memory) 异常。 虽然 Java 语 言 有 垃圾 回收 机 制 ， 但 也 不 能 杜绝 内 存 
汇 漏 、 内 存 溢 出 等 问题 。Android 系 统 会 分 配给 每 个 应 用 程序 一 个 Dalvik 
虚拟 机 ， 这 样 的 分 配 策略 避免 了 因 系统 中 的 一 个 App 朋 省 而 导致 其 他 
App 甚 至 是 系统 的 朋 沉 。 所 以 Android 系 统 对 于 每 一 个 Dalv 永 虚拟 机 也 分 
配 了 一 定 的 内 存 。 当 开发 的 App 占 用 的 内 存 超 过 了 这 个 内 存 上 限时 ， 就 
会 产生 OOM 异 常 。 为 了 避免 OOM， 开 发 人 员 必 须 为 App 做 一 定 的 内 存 
分 配 策略 。 在 一 般 的 Android 程 序 中 ， 占 用 内 存 最 大 的 部 分 就 是 图 片 的 
绥 存 ， 因 为 Bitmap 是 存储 在 内 存 中 的 ， 通 常 使 用 LRUCache 来 作为 图 片 
的 缓存 池 。 本 节 介 绍 的 内 容 是 如 何 定位 以 及 修复 内 存 汇 漏 。 内 存 泄 漏 是 
指 有 些 对 象 是 从 虚拟 机 的 根 对 象 通过 引用 链 可 达 的 ， 但 是 这 些 对 象 在 
App 中 再 也 不 会 被 用 到 了 。 由 于 这 些 对 象 是 从 虚拟 机 的 根 对 象 可 达 的 ， 
导致 这 些 对 象 不 会 被 垃圾 回收 器 回收 ， 而 系统 对 这 些 对 象 又 不 再 使 用 ， 
从 而 导致 它们 成 为 内 存 垃圾 ， 永 远 不 被 使 用 ， 叉 永远 不 被 回收 挥 。 造 成 
内 存 汇 漏 的 原因 一 般 是 开发 人 员 的 不 民 编 码 习 惯 或 者 对 Android 引 苟 不 
熟悉 。 本 节 使 用 DDMS (Dalvik Debug Monitor Server) 与 
MAT (Memory Analyzer Tool) 工具 来 定位 内 存 泄 漏 ， 并 最 终 解 决 内 存 
泄漏 问题 。 


为 了 深入 理解 内 存 泄漏 ， 需 要 先 来 看 看 Dalvik 虚 拟 机 对 于 内 存 的 分 
配 情 况 ， 如 图 13-2 所 示 。 


























图 13-2 


如 图 13-2 所 示 ， 当 类 加 载 器 〈Class Loader) 将 一 个 类 的 字 节 码 加 载 
到 虚拟 机 中 的 时 候 ， 首 先 会 将 这 个 类 的 信息 存 入 方法 区 ， 这 个 类 的 静态 
变量 也 在 方法 区 中 ; 当 基 于 这 个 类 创建 一 个 对 象 时 ， 这 个 对 象 就 存储 于 
堆 内 存 中 。 方 法 区 内 存 区 域 和 堆 内 存 区 域 都 是 线程 共享 的 数据 区 域 。 图 
13-2 中 的 虚拟 机 栈 是 指 当前 线程 运行 的 现场 信息 ， 属 于 线程 间隔 离 的 数 
据 ; 本 地 方法 栈 是 指 对 于 Native 方 法 的 调用 现场 ， 对 于 线程 也 是 独立 
的 ; 程序 计数 器 就 是 记录 程序 运行 的 下 一 条 指令 的 地 址 ， 也 是 线程 之 间 





相互 独立 的 区 域 。 


了 解 了 虚拟 机 内 存 分 配方 面 的 知识 ， 再 来 看 一 下 虚拟 机 的 垃圾 回收 
机 制 。 垃 圾 回收 机 制 主要 针对 堆 内 存 区 域 进行 垃圾 回收 。 这 里 所 谓 的 垃 
圾 就 是 指 以 根 对 象 为 起 点 ， 从 这 个 起 点 癌 下 搜索 ， 搜 索 走 过 的 路 径 称 大 
引用 链 ， 当 一 个 对 象 不 在 任何 引用 链 上 时 ， 则 说 明 这 个 对 象 是 不 可 能 
被 使 用 的 ， 则 标记 为 垃圾 ， 垃 圾 回收 器 在 下 一 次 回收 的 时 候 就 会 把 这 块 
内 存 释 放 掉 。 这 种 垃圾 回收 方法 充分 解决 了 循环 引用 等 问题 ， 是 比较 先 
进 的 垃圾 回收 机 制 。 标 记 是 否 为 垃圾 的 过 程 如 图 13-3 所 示 。 
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图 13-3 


在 图 13-3 中 ，object 1、object 2、object 3、object 4 都 存在 于 根 对 象 
(GC Roots) 的 引用 链 上 ， 或 者 说 是 从 根 对 象 可 达 的 对 象 。 而 object 5、 
object 6、object 7 尽管 有 循环 引用 ， 但 形成 的 只 是 一 座 孤 岛 ， 并 不 存在 
于 根 对 象 的 引用 链 上 ， 或 者 说 从 根 对 象 是 不 可 达 的 对 象 。 那 上 面 所 讲 的 


根 对 象 〈《GC Roots) 又 有 哪些 呢 ? 大 致 可 分 为 以 下 几 类 。 
-虚拟 机 栈 中 引用 的 对 象 ， 一 般 是 当前 使 用 中 的 局 部 变量 。 
方法 区 中 类 静态 属性 引用 的 对 象 ， 就 是 静态 变量 对 应 的 对 象 。 
-方法 区 中 常量 引用 的 对 象 。 
-本 地 方法 栈 中 JNI《〈 即 一 般 所 说 的 Native 方 法 ) 引用 的 对 象 。 


当 由 于 开发 人 员 不 好 的 编码 习惯 或 者 对 某 些 框架 (Android 引 擎 ) 
不 熟悉 导致 一 些 对 象 不 再 使 用 ， 但 是 还 处 于 从 根 对 象 《GC Roots) 可 达 
的 状态 时 ， 惑 造成 了 内 存 泄漏 。 本 节 将 从 三 个 层面 来 定位 内 存 泄漏 并 最 
终 给 出 解决 方案 ， 这 三 个 层面 分 别 是 方法 区 内 静态 变量 引起 的 内 存 泄 
漏 、 匿 名 内 部 类 引起 的 内 存 泄漏 〈 会 以 Android 引 擎 提供 的 Handler 的 使 
用 作为 实例 进行 介绍 ) 以 及 本 地 方法 栈 引起 的 内 存 泄 漏 。 


1. 方 法 区 内 静态 变量 引起 的 内 存 泄漏 


一 个 类 的 静态 变量 处 于 虚拟 机 内 存 的 方法 区 ， 属 于 根 对 象 集合 的 一 
部 分 ， 开 发 中 应 该 尽量 避免 给 静态 变量 赋值 Activity 类 型 的 实例 。 但 
是 ， 有 的 开发 者 为 了 快速 完成 产品 的 需求 ， 常 以 最 快 的 方式 〈 比 如 静态 
变量 引用 了 Activity〉 来 实现 ， 这 对 于 整个 开 必 过 程 来 讲 是 糟 料 的 。 这 
种 做 法 最 终 并 不 能 让 产品 快速 上 线 ， 即 使 产品 上 线 了 ， 用 户 使 用 之 后 也 
会 过 到 各 种 问题 。 下 面 展 示 一 段 代码 示例 : 
































public class AudioProcessorService { 
private static List<Context> mContexts = new ArrayList<Context>(); 
public AudioProcessorService(Context context) { 
AudioProcessorService.mContexts.add(context); 


} 





在 主 界面 的 MainActivity 中 点 击 按 钮 会 跳 转 到 
TestJavaMemoryLeakActivity， 在 Activity 的 onCreate 方 法 里 创建 一 个 
AudioProcessorService 类 型 的 对 象 ， 接 着 在 Activity 界 面 中 有 一 个 按钮 ， 
点 击 该 按钮 就 可 以 调用 对 象 中 的 其 他 方法 ， 最 后 点 击 返回 退出 主 界面 
MainActivity。 为 了 方便 演示 内 存 泄漏 ， 在 TestJavaMemoryLeakActivity 
中 加 入 一 个 5MB 大 小 的 字 节 数组 类 型 的 成 员 变 量 ， 在 实际 生产 环境 下 ， 





每 个 界面 有 大 量 的 图 片 与 View， 同 样 也 会 占用 很 大 的 内 存 ， 代 码 如 下 : 





private byte[] buffers = new byte[5 * 1024 * 1024]; 





重复 上 述 过 程 3~5 次 ， 表 定 会 造成 TestJavaMemoryLeakActivity 的 
内 存 泄漏 。 下 面 就 来 看 看 到 底 有 没有 内 存 泄 漏 ， 以 及 是 什么 操作 导致 的 
内 存 泄漏 。 首 先 切换 到 DDMS 视 图 界面 ， 如 图 13-4 所 示 。 





Devices % 品 日 | 的 Threads 国 Heap 器 国 Alocation Tracker 全 Network Statistics (站! File Explorer (MY Emulator Contro 
头目 留 自 务 望 鲁 通 圈 由 Heapupdateswilhappen after ever 

Name ID HeapSize Allocated Free %Used #0Objects 

Y 上 ge-nexus 5x-015b3c0ae94618e4 Online 1 15,819 MB 9,491MB 6.328MB 60.00% 25,041 Cause GC 


com,.e@xample.memoryleak 22572 





Display: ~ Stats 


Type Count TotalSize Smallest Largest Median Average 
free 516 688.016 KB 8B 137.281KB 1128 1.333KB 
data object 1,883 205.875 KB 88 35.180KB 328 1118 
class object 9 11,375KB 1928 4.000KB 448B 1,264KB 
1-byte array (byte[], boolean[]) 103 8.350 MB 168 5.000 MB 19.703KB 83.014KB 
2-byte array (short[], char[]) 12 176.992 KB 16B 53,273KB 17,500KB 14.749 KB 
4-byte array (object[], intl], floatD) 301 493.906 KB 16B 383.852 KB 488 1.641KB 
8-byte array (longl], double[]) 41 63.500 KB 328 47.797 KB 328 1.548KB 
图 13-4 


可 以 多 次 点 击 图 13-4 中 右边 的 Cause GC 按钮 ， 主 动 让 虚拟 机 多 执行 
几 次 垃圾 回收 ， 然 后 点 击 左上 角 的 Dump HPROF ”各 e 按 钮 ， 将 当前 
com.example.memoryleak 这 个 应 用 的 虚拟 机 内 存 分 配 情况 以 文件 的 形式 
下 载 下 来 。 如 果 Eclipse 中 安装 了 MAT 插 件 ， 就 默认 使 用 该 插件 打开 这 个 
文件 ;如 果 没 有 插件 ， 就 会 以 文件 的 形式 保存 到 用 户 指 定 的 路 笃 下 ， 然 
后 使 用 单独 的 MAT 工 具 打 开 这 个 文件 。 无 论 是 单独 的 MAT 工 具 还 是 
Eclipse 中 的 MAT 插 件 ， 打 开 之 后 的 结果 如 图 13-5 所 示 。 


从 图 13-5 中 可 以 看 到 ， 饼 形 图 是 App 内 存 的 总 览 图 ， 内 存 占 用 大 小 
为 25.8MB， 有 三 个 5MB 的 大 对 象 存 在 ， 图 中 下 方 还 有 三 个 比较 重要 的 
按钮 ， 分 别 是 Histogram、Dominator Tree 和 Leak Suspects。 利 用 MAT 分 
析 内 存 汇 漏 也 是 依靠 这 三 个 工具 ， 我 们 可 以 先 打 开 视 图 Leak Suspects， 
如 图 13-6 所 示 。 


图 13-6 所 示 的 饼 形 图 展示 可 能 存在 内 存 泄 漏 的 对 象 ， 可 以 在 这 个 视 











图 的 下 半 部 分 找到 第 一 个 泄漏 5MB 内 存 的 对 象 ， 如 图 13-7 所 示 。 
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图 13-5 
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图 13-6 


图 13-7 中 显示 了 哪 一 个 对 象 被 哪 一 个 类 加 载 器 加 载 进来 ， 占 用 了 多 
大 内 存 ， 以 及 主要 是 由 哪 一 个 成 员 变 量 占用 的 内 存 。 可 以 点 击 Details 进 
入 下 一 级 界面 来 查看 这 个 对 象 的 引用 细节 ， 如 图 13-8 所 示 。 


= @ Problem Suspect 1 


One instance of "com.example.java.layer.TestJavaMemoryLeakActivity" loaded by 
"dalvik.system.PathClassLoader @ 0x12c1a430" occupies 5,246,160 (19.36%) bytes. The memory 
is accumulated in one instance of "byte0 " loaded by "<system class loader>". 


. Keywords 

. com.example.java.layer. TestJavaMemoryLeakActivity 
| byte 

. dalvik.system.PathClassLoader @ 0x12c1a430 


| Details » 


图 13-8 中 展示 了 一 个 5MB 大 小 的 字 市 数组 ， 这 个 数组 被 
TestJavaMemory-LeakActivity 类 的 一 个 实例 里 的 成 员 变 量 buffers 所 引 
用 ， 而 这 个 实例 是 被 一 个 ArrayList 里 的 Index 为 2 的 元 素 所 引用 ， 这 个 
ArrayList 实 例 又 被 AudioProcessorService 类 的 实例 变量 mContexts 所 引 





用 ; 这 个 数组 同时 被 另外 一 个 成 员 变 量 mContext 所 引用 ，mContext 是 
Button 对 象 中 的 成 员 变 量 。 而 Button 就 是 这 个 Activity 里 的 一 个 按钮 组 
件 ， 所 以 造成 内 存 泄漏 的 就 是 AudioProcessorService 中 的 静态 变量 
mGContexts。 如果 再 同 下 看 ， 男 外 两 个 泄漏 的 Activity 对 象 分别 被 
ArrayList 中 Index 为 0 和 Index 为 1 的 元 素 所 引用 。 

















ClassN Shallow Retained 
ass Name pp te 
bytel5242880] 名 Oxca6b4000 5,242,896 -5,242,896 
L 凰 buffers com.example ,java.layer. TestlavaMemoryLeakActivity Ox12c464c0 232 5.246,160 
:2) javadang.Objectl10) @ 0x12c283f8 本 本 
{MlementData javautil ArrayList @ Ox12c02538 


mContexts class com,example.java.layer.AudioProcessorService @ Ox12c4d900 System Class 





:mContext android.widget Button (0 Ox12c70c00» 720 2536 


图 13-8 


结合 上 述 代码 ， 可 以 看 到 确实 是 因为 这 个 静态 变量 作为 根 对 象 
(GC Roots) 一 直 引 用 着 Activity 实 例 ， 致 使 退出 Activity 的 时 候 ， 
Activity 对 象 还 是 不 能 够 被 虚拟 机 的 垃圾 回收 器 回收 掉 。 显 然 ， 在 实际 
开发 过 程 中 ， 不 太 可 能 使 用 一 个 ArrayList 存 放 Context 类 型 的 变量 。 但 是 
有 可 能 会 使 用 一 个 静态 变量 引用 。 所 以 在 开发 过 程 中 ， 不 要 使 用 静态 变 
量 或 者 常量 来 引用 Activity 的 实例 ， 否 则 会 造成 内 存 泄漏 。 男 外 ， 在 日 
常 开发 中 ，Activity 中 很 少 会 直接 有 这 么 大 的 byte 数 组 ， 更 多 的 情况 下 以 
Bitmap 的 形式 存在 ， 比 如 一 个 宽 为 360、 高 为 640 并 且 表 示 格 式 为 
RGBA_8888 的 Bitmap 对 象 所 占用 的 内 存 大 小 为 : 














360 * 640 * 4 = 900KB 





如 果 有 8 张 图 片 ， 那 么 占用 7MB 的 空间 ， 所 以 一 般 Activity 的 实例 都 
属于 内 存 对 象 ， 实 际 开发 中 可 以 优先 检查 Activity 的 内 存 泄漏 。 


2. 匿 名 内 部 类 引起 的 内 存 汇 漏 


下 面 从 匿名 内 部 类 角度 来 分 析 造 成 内 存 泄 漏 的 案例 。 在 Java 中 ， 无 
论 是 匿名 内 部 类 还 是 内 部 类 ， 都 可 以 引用 所 在 类 中 的 实例 变量 或 者 方 








法 ， 这 是 为 什么 ? 实际 上 ， 内 部 类 对 所 在 类 的 实例 对 象 有 一 个 引用 ， 并 
且 这 个 引用 是 一 个 强 引 用 的 关系 ， 即 如 果 这 个 内 部 类 构建 的 对 象 没有 被 
释放 掉 ， 那 么 内 部 类 所 引用 的 外 部 类 创建 的 对 象 也 永远 不 会 被 释放 。 而 
开发 者 在 开发 Android 程 序 的 时 候 ， 最 常 使 用 的 是 Android ”SDK 提 供 的 
Handler 来 进行 线程 之 间 的 通信 。 在 创建 Handler 的 时 候 ， 为 了 简单 方 

便 ， 开 发 者 一 般 都 会 直接 写 一 个 匿名 内 部 类 或 者 内 部 类 继承 自 

Handler， 并 重 写 方法 handleMessage 在 主线 程 中 人 处理 界面 的 演 染 以 及 绘 
制 。 下 面 展示 一 段 大 家 在 开发 中 最 党 使 用 的 代码 : 














public class TestJavaMemoryLeakActivity extends Activity { 
private static final int ON_HOUR_KEY = 100; 
private byte[] buffers = new byte[5 * 1024 * 1024]; 
protected void onCreate(Bundle savedInstanceState) { 
super .onCreate(savedInstanceState); 
setCcontentView(R.1layout.activity_ java leak); 
Message msg = new Message(); 
msg.what = ON_HOUR_KEY ， 
handler.sendMessageDelayed(msg, 1000 * 60 * 60); 
} 
private Handler handler = new Handler() { 
public void handleMessage(Message msg) { 
switch (msg.what) { 
case ON_HOUR_KEY : 
displayTip(); 
break; 
default: 
break; 
} 
} 


} 
public void displayTip() { 
Log.i("problem"，,， "开播 一 个 小 时 了 。。。"); 








上 面 这 段 代 码 完成 的 功能 很 简单 ， 就 是 进入 某 界 面 就 开始 计时 ， 一 
个 小 时 之 后 输出 一 行 日 志 “ 开 播 一 个 小 时 了 ...”。 这 其 实 就 是 在 模拟 一 个 
直播 App 的 主播 端 ， 待 主播 开播 一 个 小 时 之 后 提示 主播 。 这 是 一 个 非常 
典型 的 场景 。 我 们 可 以 模拟 主播 ， 在 主 界面 点 击 按钮 进入 这 个 界面 之 
后 ， 等 待 几 秒 钟 ， 然 后 退回 主 界面 ， 重 复 以 上 操作 3 一 5 次 。 再 进入 
DDMS 界 面 ， 点 击 左 上 角 的 Dump HPROF fle 按钮 ， 从 而 查看 到 内 存 泄 
漏 的 MAT 界 面 ， 如 图 13-9 所 示 。 
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mawewe android os Handler Gy Oxl2cS66c0 3 3 

Ly Totak 8 entries 

图 13-9 


从 图 13-9 可 以 看 到 ， 这 个 Activity 实 例 是 被 它 内 部 类 MyHandler 的 一 
个 实例 引用 的 ， 而 MyHandler 实 例 是 被 一 个 Message 实 例 中 的 成 员 变量 
target 引 用 的 ，Message 对 象 义 是 被 MessageQueue 实 例 中 的 成 员 变量 
mMessages 所 引用 的 ，MessageQueue 对 象 则 是 被 整个 Android 引 擎 中 的 本 
地 方法 栈 、Looper 等 完全 可 以 作为 根 对 象 集合 的 对 象 引用 着 的 ， 所 以 这 
个 Activity 对 象 一 直 无 法 被 释放 。 上 述 引 用 关系 链 是 通过 内 存 泄漏 工具 
分 析出 来 的 ， 下 面 从 另外 一 个 角度 即 对 应 着 Android 框 架 的 源码 分 析 为 
何 这 个 界面 退出 了 却 无 法 被 垃圾 回收 器 回收 挤 。 下 面 我 们 看 看 
Handler、MessageQueue、Looper 的 结构 关系 图 ， 如 图 13-10 所 示 。 
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图 13-10 


从 图 13-10 中 可 以 看 到 ，Handler 向 外 暴露 两 种 类 型 的 接口 ;第 一 种 

是 sendMessage 接 口 ， 即 开发 者 构造 一 个 Message 对 象 ， 然 后 调用 
sendMessage 或 者 sendMessageDelayed 利 用 Handler 将 消息 发 送出 去 ; 第 
二 种 是 postRunnable 接 口 ， 即 开发 者 构造 一 个 Runnable 类 型 的 对 象 ， 然 
后 调用 post 方 法 或 者 postDelayed 方 法 。 在 Handler 内 部 ， 无 论 是 对 于 哪 一 
种 接口 ， 都 会 构造 一 个 Message 对 象 。 对 于 post 类 型 的 接口 ， 会 将 
Runnable 对 象 赋值 给 Message 的 成 员 变 量 callback， 以 备 后 用 。 然 后 将 这 
个 Handler 殿 值 给 Message 的 成 员 变 量 target， 并 按照 当前 时 间 蕉 加 上 
Delayed 的 时 间 ， 作 为 执行 时 间 调 用 消 妃 队列 〈MessageQueue) 的 
endueueMessage 方 法 ， 且 将 Message 对 象 放 入 消息 队列 

(MessageQueue) 。 而 Looper 的 loop 方 法 在 Android 引 警 启 动 应 用 的 时 候 
就 在 主线 程 中 不 断 地 调用 消息 队列 (MessgeQueue) 的 next 方 法 ， 它 会 
取出 消息 (Message) ， 并 调用 消息 的 target( 开 发 者 自 定义 的 Handler) 
的 dispatchMessage 方 法 ， 在 dispatchMessage 方 法 中 会 先 判 定 消息 有 没有 
被 设置 callback。 如 果 有 ， 说 明 是 post 接 口 推送 进来 的 消息 ， 则 调用 


callback 的 run 方 法 ， 如 果 没 有 被 设置 callback， 则 调用 handleMessage 方 
法 ， 一 般 开 发 者 会 重 写 这 个 方法 来 处 理 自己 的 消息 回调 ， 这 样 就 完成 了 
子 线程 和 主线 程 的 交互 操作 。 


上 述 分 析 中 ， 核 心 的 实现 其 实 是 消息 队列 (MessageQueue) 的 
enqueueMessage 方 法 和 next 方 法 ， 这 两 个 方法 会 按照 BlockingQueue 的 方 
式 啊 应 外 界 的 调用 ， 只 不 过 这 个 队列 是 按照 时 间 顺 序 组 建 起 来 的 消息 链 
表 。 从 源码 进行 分 析 ， 读 者 应 该 会 更 加 清晰 为 何 Activity 的 实例 不 会 被 
Dalvik 垃 圾 回收 器 回收 挤 了 ， 因 为 在 调用 了 Handler 对 象 的 发 送 延 人 运 消 忌 
代码 后 ， 这 个 Handler 实 例 束 被 Message 对 象 所 引用 ， 而 Message 由 于 还 
没有 到 达 执 行 时 间 ， 所 以 一 直 存 储 在 MessageQueue 中 ， 这 个 引用 关系 也 
一 直 存 在 ，Activity 实 例 也 一 直 在 根 对 象 (GC Roots) 可 达 路 径 上 ， 所 
以 就 不 可 能 被 回收 挥 。 虽 然 只 是 一 段 时 间 内 不 被 回收 控 ， 但 是 在 这 段 时 
间 内 会 影响 到 用 户 的 使 用 ， 其 至 有 可 能 造成 OOM 异 常 的 抛 出 ， 最 终 使 
整个 应 用 朋 尝 。 既 然 发 现 了 问题 ， 解 决 问题 也 就 变 得 非常 简单 了 。 一 般 
来 襄 ， 解 决 这 类 问题 有 两 种 方法 。 


方法 一 : 在 Activity 的 生命 周期 方法 onDestroy 中 将 Handler 中 的 所 有 
Message 都 清空 ， 这 样 就 不 会 有 任何 引用 了 ， 代 码 如 下 : 

















Q@Override 

protected void onDestroy() { 
super .onDestroy(); 
handler.removeCallbacksAndMessages(null); 


} 





方法 二 : 将 这 个 内 部 类 改 为 一 个 静态 的 内 部 类 ， 既 然 是 静态 的 ， 那 
么 就 属于 类 ， 而 不 属于 类 的 实例 ， 这 样 束 不 会 对 所 在 类 的 对 象 有 一 个 强 
引用 的 关系 了 。 而 在 Handler 中 ， 双 需要 调用 所 在 类 的 方法 执行 一 些 页 
面 绘制 操作 ， 那 么 就 需要 给 Handler 增 加 一 个 所 在 类 的 虚 引 用 类 型 的 实 
例 变 量 ， 而 虚 引 用 会 在 垃圾 回收 喜 进 行 FullGC 的 时 候 回 收 掉 ， 这 惑 相 当 
0 
0 下 : 

















static class MyHandler extends Handler { 
private WeakReference<TestJavaMemoryLeakActivity> activity; 
public MyHandler(TestJavaMemoryLeakActivity activity) 
this.activity = new WeakReference<TestJavaMemoryLeakActivity> 
(activity); 
} 


Q@Override 


public void handleMessage(Message msg) { 
TestJavaMemoryLeakActivity context = activity.get(); 
if(null == context) { 
return; 


Switch (msg.what) { 
case ON_HOUR_KEY : 
context.displayTip(); 
break; 
default: 
break; 





构造 Handler 的 时 候 ， 代 码 变 为 如 下 所 示 的 形式 : 





private MyHandler handler = new MyHandler(this); 





上 述 两 种 方法 都 可 以 解决 使 用 Handler 情 况 下 的 内 存 泄漏 ， 其 他 情 
况 下 ， 对 于 内 部 类 的 使 用 ， 大 家 一 定 要 考虑 内 部 类 的 生命 周期 不 应 该 长 
于 所 在 的 外 部 类 ， 人 否则 应 该 回 到 这 个 模块 的 设计 阶段 ， 再 来 理 清 整个 模 
块 中 类 的 关系 。 


3. 本 地 方法 栈 引 起 的 内 存 泄漏 
下 面 从 本 地 方法 栈 的 角度 分 析 造 成 内 存 泄漏 的 案例 。 在 开发 中 ， 如 


果 要 在 Native 层 调用 Java 层 的 方法 ， 一 般 都 会 在 JNI 层 建立 一 个 全 局 的 对 
象 引用 并 存储 到 全 局 变量 中 。 代 码 如 下 : 








jobject globalobj = 0; 
JNIEXPORT void JNICALL Java com example_ java layer_JNILayer_init(JNIEnv * er 
jobject obj) { 
JavaVM *g_jvm = NULL; 
env->GetJavaVM(&g_jvm); 
global0bj = env->NewGlobalRef (obj); 


JNIEXPORT void JNICALL Java com example java layer_JNILayer_process 
(JNIEnV * env, jobject obj) { 
LOGI("Enter Java com example_java layer_JNILayer_process..."); 


JNIEXPORT void JNICALL Java com example_ java layer_JNILayer_destroy 
(JNIEnV * env, jobject obj) { 
LOGI("Enter Java com example java layer_JNILayer_destroy..."); 
//env->DeleteGlobalRef(global0bj); 
//globalobj = 0; 
} 


二 一 


以 上 代码 中 ，Init 方 法 利用 JNIEnv 创 建 了 一 个 GlobalRef 全 局 对 象 ， 
我 们 可 以 依靠 这 个 全 局 对 象 在 Native 层 的 任何 地 方 去 调用 Java 层 的 代 
人 码 。 使 用 JNIEnv 创 建 全 局 对 象 后 ， 就 会 在 本 地 方法 栈 中 保留 对 Java 层 该 
对 象 的 一 个 引用 ， 就 相当 于 在 根 对 象 《GC Roots) 集合 的 本 地 方法 栈 中 
加 入 了 GlobalRef。 当 虚拟 机 的 垃圾 回收 费 进 行 垃圾 回收 的 时 候 ，Java 层 
的 这 个 对 象 就 不 会 被 回收 挥 ， 所 以 在 最 终结 束 了 调用 或 者 生命 周期 的 时 
候 一 定 要 删除 GlobalRef。 如 果 忘 记 删 掉 ， 就 会 造成 内 存 泄 漏 。 这 里 将 上 
述 代码 中 destroy 方 法 中 删除 全 局 对 象 的 方法 注释 挥 ， 这 样 束 伪造 了 相应 
的 案例 来 分 析 内 存 泄 漏 。 为 了 有 效 观 察 到 内 存 泄 漏 ， 在 有 native 方 法 的 
Java 类 JNILayer 中 引用 AudioProcessorService 的 实例 。 代 码 如 下 : 








public class JNILayer { 
private AudioProcessorService mService; 
public JNILayer(AudioProcessorService service) { 
mService = service,; 


public native void init(); 
public native void process(); 
public native void destroy(); 





当然 ， 在 AudioProcessorService 类 中 要 初始 化 JNILayer， 并 且 在 
AudioProcessorService 类 中 引用 自己 创建 的 Activity 类 型 的 实例 ， 代 码 如 
让 





public class AudioProcessorService 
private JNILayer jniLayer = new JNILayer(this); 
private Context mContext; 
public AudioProcessorService(Context context) { 
mContext = context; 
jniLayer .init(); 


public void doProcess() { 
jniLayer .process(); 


public void destroy() { 
jniLayer.destroy(); 
} 


} 





在 Activity 的 生命 周期 方法 onCreate 中 会 初始 化 
AudioProcessorService 实 例 ， 然 后 在 生命 周期 方法 onDestroy 中 会 调用 
AudioProcessorService 的 Destroy 方 法 。 在 主 界面 中 ， 点 击 按钮 进入 
Activity， 然 后 退出 ， 反 复 执 行 上 述 操 作 几 次 。 之 后 进入 DDMS 界 面 ， 并 


点 击 左 上 角 的 Dump HPROF file 按 钮 ， 即 可 查看 到 内 存 泄漏 的 MAT 界 
面 ， 如 图 13-11 所 示 。 


Shallow Retained 





Class Name Heap Ha 
0 

bytel5242880] @ 0xcalb3000 5,242,896 5,242,896 
j 人 buffers com.example java.layer.TestlavaMemoryLeakActivity @ Ox12c783d0 232 5,246,128 





和 mService com.example,java.layer,JNILayer @ Ox12c3a3e0 Native Stack 


.MmContext android .widget. Button @ Ox12c17400» 720 2,536 





图 13-11 


从 图 13-11 中 可 以 看 到 ， 选 中 的 一 行 显示 这 个 Activity 对 象 被 根 对 象 
(GC Roots) 引用 的 是 JNILayer 类 中 的 本 地 方法 栈 (Native Stack) ， 对 
应 到 代码 中 ， 就 是 JNI 层 的 类 中 Destroy 方 法 没有 把 GlobalRef 删 除 掉 。 放 
开 注 释 掉 的 代码 ， 然 后 以 同样 的 流程 进行 操作 ， 就 不 会 再 有 内 存 泄漏 。 
因此 ， 一 旦 在 JNI 中 创建 了 一 个 GlobalRef， 一 定 要 注意 在 最 终 不 需要 的 
时 候 删 除 控 ， 否 则 会 造成 内 存 泄漏 。 


上 述 内 存 泄漏 是 广大 开发 者 常会 犯 的 错误 ， 当 然 还 有 一 些 其 他 内 存 
泄漏 的 情况 。 比 如 使 用 BroadcastReceiver 的 时 候 调 用 了 register， 但 是 在 
不 需要 的 时 候 没 有 调用 unregister; 又 比如 访问 ContentProvider 用 的 
Cursor 没 有 关闭 或 者 IO 没有 关闭 等 。 所 以 开发 者 在 日 常 开 发 中 应 保持 良 
hs 并 在 团队 内 做 好 代码 评审 等 工作 ， 以 确保 产品 的 顺利 上 
线 与 良好 体验 。 














13.1.3 NDK 工 具 详 解 


NDK 路 径 下 的 模块 在 前 面 章 节 中 已 经 介绍 过 ， 本 节 重 点 介绍 NDK 
提供 的 gcc 工 具 所 在 的 路 径 ， 如 下 : 








NDK_GCC_TOOL_DIRECTORY=$NDKROOT/toolchains/arm-linux-androideabi- 
4.9/prebuilt 
/darwin-x86_64/bin/ 





在 这 个 路 径 下 有 很 多 gcc 的 工具 ， 熟 练 使 用 这 里 的 工具 可 以 大 大 提 
高 我 们 的 工作 效率 。 下 面 逐 一 介绍 日 党 工作 中 用 到 的 这 些 工 具 。 


1. 利 用 readelf 命 令 输出 动态 so 库 中 的 所 有 函数 
命令 如 下 : 





./arm-linux-androideabi-readelf -a libMemoryLeak.so > func,txt 





打开 func.txt 可 以 看 到 so 中 的 所 有 函数 ， 如 果 运 行 Android 设 备 上 的 
应 用 报错 说 找 不 到 某 个 JNI 方 法 ， 就 可 以 使 用 这 行 命令 将 so 库 中 的 方法 
全 部 导出 来 ， 然 后 搜索 对 应 的 JNI 方 法 ， 看 看 到 底 有 没有 被 编译 到 动态 
库 中 ， 在 最 后 有 一 个 参数 Tag_CPU_name 写 着 ARM v7， 代 表 以 armv7 的 
架构 进行 编译 。 注 意 这 里 的 输入 so 包 一 定 要 是 obj 目 录 下 带 symbol file 的 
so 库 ， 而 不 应 该 是 libs 目 录 下 的 so 库 。 


2. 利 用 objdump 命 令 将 so 包 反 编译 为 实际 的 代码 
指令 如 下 : 

















./arm-linux-androideabi-objdump -dx libMemoryLeak.so > Stacktrace ,txt 








打开 stacktrace.txt， 是 这 个 动态 so 库 的 符号 表 信 息 ， 可 以 看 到 编译 进 
来 的 所 有 方法 以 及 调用 堆栈 的 地 址 。 后 面 介绍 的 动态 检测 内 存 泄漏 中 ， 
获取 方法 调用 堆栈 的 地 址 信息 就 是 这 个 地 址 。 


3. 利 用 nm 指令 查看 静态 库 中 的 符号 表 


指令 如 下 : 





./arm-linux-androideabi-nm libaudio.a > symbol.file 





打开 symbol.file， 可 以 看 到 静态 库 中 所 有 的 方法 声明 ， 如 果 在 编译 
so 动态 库 的 过 程 中 碰 到 undefined ”reference 类 型 的 错误 ， 或 者 duplicated 
reference， 可 以 使 用 这 条 指令 将 对 应 静态 库 的 所 有 方法 都 导出 来 ， 然 后 
看 一 下 到 底 有 没有 或 者 重复 定义 的 方法 。 


4. 利 用 g++ 指 令 编译 程序 
指令 如 下 : 

















SYS_ROOT=$NDKROOT/platforms/android-21/arch-arm/ 
arm-linux-androideabi-g++ -02 -DNDEBUG --Sysroot=$SYS_ROOT 一 
0 libMemoryLeak.so 

jni/test memory.cpp -lm -lstdc++ 








不 论 是 .a 的 静态 库 还 是 .so 的 动态 库 ， 甚 至 是 可 执行 的 命令 行 工具 ， 
都 可 以 使 用 g++ 编译 ， 而 常 使 用 的 ndk-build 命 令 实际 上 是 对 Android.mk 
以 及 g++ 的 一 种 封装 ， 这 种 封装 将 g++ 的 细节 封装 起 来 ， 让 开发 者 更 加 
方便 。 附 录 中 介绍 NE10 的 交叉 编译 到 Android 平 台 ， 使 用 的 束 是 g++ 的 
编译 方式 ， 只 不 过 用 CMake 封 装 了 一 次 。 


5. 利 用 addr2line 将 调用 地 址 转化 成 代码 行 数 
和 令 如 下 : 





./arm-linux-androideabi-addr2line -e libMemoryLeak.so 0xcf9c > file.line 





文件 file.line 里 就 是 调用 地 址 0xcf9c 对 应 的 代码 文件 和 对 应 的 行 数 ， 
注意 这 里 输入 的 so 必须 是 obj 目 录 下 的 带 有 symbol file 的 so， 人 否则 解析 代 
码 文件 与 行 数 不 成 功 。 
6. 利 用 ndk-stack 还 原 堆栈 信息 


站 令 如 下 : 





ndk-stack -sym libMemoryLeak.so -dump tombstone 01 > 1Log ,txt 





当 程 序 出 现 Native 层 的 Crash 时 ， 系 统 会 拦截 并 将 Crash 的 堆栈 信息 
放 到 /data/tomb-stones 目 录 下 ， 存 储 成 为 一 个 文件 ， 系 统 会 目 动 循环 履 
盖 ， 并 且 只 会 保留 最 近 的 10 个 文件 。 如 何 将 这 里 的 信息 转换 为 实际 的 代 
码 文件 可 以 使 用 ndkr-stack 工 具 ， 这 个 工具 和 ndk-build 在 同一 个 目录 下 。 
注意 ，-sym 后 面 的 so 文件 必须 是 obj 目 录 下 的 带 有 symbol file 的 动态 库 ，- 
dump 后 面 的 就 是 从 Android 设 备 中 取出 来 的 Crash 文 件 。 





13.1.4 Native 层 的 内 存 汇 漏 检 测 


上 一 节 中 完成 了 Java 层 内 存 泄漏 的 检查 与 修复 ， 本 市 将 带 着 大 家 进 
行 Native 层 的 内 存 汇 漏 检查 和 修复 。 本 节 会 从 两 个 层面 进行 介绍 :第 一 
个 层面 是 静态 检测 Native 层 的 内 存 泄漏 ， 可 以 作为 svn 或 者 git 提 交代 人 码 的 
检测 条 件 ; 第 二 个 层面 是 在 程序 运行 中 检测 内 存 泄漏 ， 相 较 于 静态 检 
查 ， 这 个 层次 的 内 存 泄漏 检查 更 为 准确 。 


1.Native 代 码 的 静态 检测 
CppCheck 是 一 个 用 于 检查 C/C++ 代码 缺陷 的 静态 检查 工具 。 不 同 于 
C/C++ 编译 占 及 其 他 分 析 工 具 ，CppCheck 只 检查 编译 器 检查 不 出 来 的 


bug， 不 检查 语法 错误 。 裔 态 代码 检查 就 是 使 用 一 个 工具 检查 我 们 写 的 
代码 是 否 安全 和 健壮 ， 是 否 有 隐藏 的 问题 。 比 如 下 面 的 代码 : 




















int n = 10; 
char* buffer = new char[n]; 
buffer[n] = 9; 





这 完全 符合 语法 规范 ， 但 是 静态 代码 检查 工具 会 提示 此 处 有 溢出 。 
也 就 是 说 ， 它 相当 于 一 个 更 加 严格 的 编译 器 。 目 前 使 用 比较 广泛 的 
C/C++ 静态 代码 检查 工具 有 Cppcheck 和 pc-lint 等 。pc-lint 是 资格 最 老 、 最 
强 有 力 的 代码 检查 工具 ， 但 是 是 收费 软件 ， 并 且 配 置 起 来 有 一 点 有 诬 烦 。 
而 Cppcheck 是 一 个 免费 开源 的 软件 ， 所 以 本 节 束 以 Cppcheck 工 具 为 例 来 
et 以 及 如 何 针对 检测 出 来 的 问题 进 
行 修复 点 


首先 是 Cppcheck 的 安装 。Cppcheck 有 两 种 方式 可 以 供 开 发 者 使 用 : 
一 种 是 GUI 的 方式 ， 另 外 一 种 是 命令 行 的 方式 。 本 书 中 所 有 的 使 用 都 采 
用 命令 行 的 方式 来 介绍 。 可 以 下 载 cppcheck 的 源码 ， 然 后 自己 进行 配 
置 、 编 译 和 安装 ， 也 可 以 使 用 包 管 理工 具 (Mac 上 的 brew、linux 上 的 
apt-get 等 ) 直接 安装 cppcheck。 如 果 在 Linux 系 统 下 ， 可 以 通过 下 面 的 链 
接 来 下 载 源 码 : 











http://sourceforge.NET/projects/cppcheck/files/cppcheck/ 





打开 上 述 链 接 ， 选 择 对 应 的 版 本 ， 解 压 。 接 下 来 进入 目录 ， 然 后 使 
用 下 述 命 令 进行 编译 和 安装 : 


g++ -0 cppcheck -Ilib cli/*.cpp lib/*.cpp 
make install 





笔者 使 用 的 是 Mac 系 统 ， 最 方便 的 方式 是 使 用 brew 工 具 进 行 安装 ， 
可 使 用 下 述 命令 来 安装 cppcheck: 


sudo brew install cppcheck 


安装 成 功 之 后 ， 可 以 输入 cppcheck 命 令 ， 若 看 到 它 的 帮助 文档 ， 则 
代表 安装 成 功 。 这 个 工具 的 使 用 方法 非常 简单 ， 下 面 来 看 如 何 使 用 
cppcheck。 


如 果 仪 有 一 个 文件 需要 检查 ， 可 以 直接 将 这 个 文件 写 到 cppcheck 后 
面 ， 命 令 如 下 : 





cppcheck memory_leak/native mem case/png_decoder.cpp 





如 果 目 录 下 所 有 的 文件 都 需要 检查 ， 可 以 直接 将 要 检查 的 目录 放 在 
cppcheck 后 面 ， 这 样 它 束 可 以 递归 检查 这 个 目录 下 所 有 的 文件 了 ， 并 且 
会 将 进度 和 检测 结果 直接 输出 到 屏幕 上 上， 如下: 





cppcheck ./memory_leak/ 


cppcheck 的 检测 结果 是 根据 我 们 设置 给 它 的 检查 规则 来 生成 的 ， 
cppcheck 提 供 的 检查 规则 定义 如 下 : 


error: 出 现 的 错误 ， 如 果 不 写 ， 则 是 默认 的 选项 。 

-warning: 为 了 预防 bug 防 御 性 编程 建议 信息 。 

style: 编码 格式 问题 〈 没 有 使 用 的 函数 、 多 余 的 代码 等 ) 。 
:portablity: 移植 性 警告 。 该 部 分 如 果 移 植 到 其 他 平 全 上， 可 能 


现 兼 容 性 问题 。 
:performance: 建议 优化 该 部 分 代码 的 性 能 。 
information: 一 些 有 趣 的 信息 ， 可 以 忽略 不 看 。 


其 中 ，error 规 则 是 默认 的 选项 ， 一 般 可 以 开启 warning 级 别 的 检 
测 ， 代 码 如 下 : 





cppcheck --enable=all ./memory_leak/ 





如 果 要 想 把 进度 输出 到 屏幕 上 ， 并 把 最 终 检 测 的 结果 输出 到 文件 
中 ， 可 以 使 用 如 下 命令 : 








cppcheck --enable=al1 ./memory_leak/ 2> err.txt 





命令 行 中 的 2 代表 Shell 命 令 的 内 置 描述 符 中 的 stderr， 即 标准 的 错误 
输出 ， 上 述 命 令 即 将 标准 的 错误 输出 到 err.txt， 接 着 打开 err.txt 就 可 以 看 
到 错误 信息 了 。 对 于 某 些 不 想 检测 的 文件 或 者 路 径 ， 可 以 使 用 config- 
exclude 参 数 指 出 ， 这 在 引用 一 些 第 三 方 库 源 码 的 时 候 是 一 个 典型 的 应 用 
场景 。 同 时 在 cppcheck 中 也 可 以 指定 输出 不 确定 的 信息 ， 这 时 仅 需 要 把 
inconclusive 参 数 加 上 ， 同 时 也 可 以 指定 标准 (比如 std 标 准 、c99 标 准 、 
cl1 标 准 ) ， 所 以 最 终 命令 如 下 : 





cppcheck --enable=warning --inconclusive 
std=posix ./memory_leak/ 2> err.txt 








接 下 来 伪造 一 些 平常 在 开发 中 偶尔 过 到 的 问题 ， 并 使 用 上 述 的 
cppcheck 命 令 进 行 检 测 。 在 代码 仓库 的 PngPicDecoder 类 的 头 文件 中 声明 
一 个 实例 变量 ， 代 码 如 下 : 





int bufferCursor; 








在 构造 函数 中 没有 初始 化 这 个 实例 变量 ， 此 时 cppcheck 会 报 出 错误 
警告 ， 代 码 如 下 : 





[png_decoder .cpp 5]: (warning) Member variable 'PngPicDecoder::bufferCursor' 





如 果 分 配 一 个 数组 类 型 的 buffer， 在 其 中 一 个 条 件 分 支 内 释放 ， 但 
在 男 外 一 个 条 件 分 支 内 没有 释放 ，cppcheck 也 可 以 检测 出 来 ， 代 码 如 
下 : 





short* buffer = new short[1024]; 
if(condition) { 

//Do Something 

delete[] buffer ; 
} else { 

//Do AnotherThing 


return; 





cppcheck 对 上 述 代码 进行 检测 之 后 ， 会 报 出 如 下 错误 : 





[png_decoder ,cpp 34]: (error) Memory leak: buffer 





如 果 我 们 在 代码 中 的 局 部 变量 声明 了 一 个 数组 ， 但 是 还 没有 初始 化 
或 者 没有 赋值 而 直接 访问 了 ，cppcheck 也 可 以 直接 检查 出 来 ， 代 码 如 
下 











Short* tmpBuffer = NULL 
if(condition) { 
tempBuffer = buffer; 


} 
tempBuffer[0] = 0; 





cppcheck 对 这 种 场景 会 以 错误 的 形式 报告 出 来 ， 代 码 如 下 : 





[png_decoder .cpp:31]: (error) Possible null pointer dereference: tmpBuffer 








如 果 代 码 中 的 局 部 变量 没有 初始 化 就 进行 使 用 ，cppcheck 也 会 报 出 
错误 ， 代 码 如 下 : 





int bufferCursor ， 
if(bufferCursor) { 

//Do Something 
} 





cppcheck 对 这 种 场景 下 的 错误 也 会 报 出 来 ， 代 码 如 下 : 





[png_decoder .cpp:22]: (error) Uninitialized variable: bufferCursor 





如 果 对 标准 库 中 的 一 些 API 理 解 有 问题 ， 可 能 会 写 出 如 下 代码 : 





const char* PngPicDecoder::getStatisticsData() { 
string buriedPointsStr,; 
ee 
String str = "B 0.000" 
String comma = ","; 
buriedPointsStr += str,; 
buriedPointsStr += comma; 
char temp[256]; 
memset (temp,o,256); 
snprintf(temp, 256, "%.3f", 0.1358); 
str = temp; 
buriedPointsStr += str; 
return buriedPointsStr.c_str(); 





上 述 代码 利用 string 的 拼接 功能 ， 将 很 多 统计 变量 按照 一 定 的 格式 
拼接 起 来 ， 最 终 调用 c_str 函 数 返 回 C 类 型 的 字符 串 ， 但 是 会 向 外 界 暴 露 
接口 肯定 是 有 问题 的 。cppcheck 可 以 很 好 地 检查 出 这 种 类 型 的 错误 ， 
cppcheck 给 出 的 错误 如 下 : 








[png_decoder .cpp:56]: (error) Dangerous usage of c_ str(). The value returned 





上 面 列举 的 这 些 和 案例， 都 是 我 们 在 工作 中 不 小 心 导 致 的 问题 ， 如 果 
ee 过， 会 对 整个 工作 效率 有 很 大 
是 升 。 


2.Native 代 码 运 行 中 的 检测 


前 面 使 用 cppcheck 对 Native 层 的 代码 进行 了 静态 检测 。 但 是 ， 仅 仅 
靠 对 代码 的 静态 检测 是 远 远 不 够 的 ， 静 态 检测 仅 能 解决 开发 人 员 的 编码 
风格 或 者 编码 漏洞 问题 。 真 正在 运行 过 程 中 出 现 的 内 存 泄漏 就 需要 靠 动 
态 的 内 存 检测 工具 了 。 所 以 这 里 会 介绍 如 何 为 Native 层 的 代码 进行 动态 
检测 内 存 泄漏 。 在 Android 平 台 上 ， 比 较 好 用 又 可 靠 的 一 种 解决 内 存 问 
题 的 办 法 : 把 Android ”NDK 的 C/C++ 代码 移植 到 其 他 平台 上 并 运行 起 











来 ， 然 后 使 用 该 平台 下 的 工具 (如 valgrind 竺 非 营 强 六 的 工具 ) 进行 检 
测 。 但 是 这 种 解决 办 法 对 于 一 个 持续 更 新 、 a LS ad 
别 合适 ， 因 为 需要 不 断 地 去 写 测试 用 例 ， 持 续集 成 需要 花费 很 大 精力 。 
当然 ， 还 有 另外 一 种 解决 问题 的 方法 ， 那 就 是 将 其 他 平台 的 一 些 工具 移 
植 到 Android 上， 比如 valgrind 就 可 以 用 在 Android 上 ， 但 由 于 效率 太 低 ， 
也 不 太 方 便 。 本 书 会 将 LeakTracer 这 一 Linux 平 台 上 常用 的 memory leak 

检测 工具 移植 到 Android 平 台 上 ， 作 为 动态 检测 内 存 泄漏 的 工具 。 


LeakTracer 分 为 两 个 主要 部 分 ， 第 一 部 分 是 对 应 用 程序 的 检查 ， 将 
LeakTracker 集 成 到 应 用 程序 中 ， 然 后 运行 应 用 程序 到 Android 平 台 ， 执 
行 自己 的 测试 Case， 最 终 LeakTracer 会 将 内 存 泄漏 文件 放 到 指定 的 路 径 
下 ; 第 二 部 分 是 解析 程序 ， 解 析 程 序 将 第 一 步 生 成 的 内 存 泄漏 文件 作为 
输入 ， (symbol file) 的 动态 库 生 成 肉眼 可 恋 的 内 存 
泄漏 的 调用 堆栈 信息 


LeakTracer 的 原理 比较 简单 ， 部 分 是 重 写 了 
a 0 ， 等 开发 者 使 用 
new\new[]\malloc 方 法 的 时 候 ， LeakTracer 利 用 系统 函数 取出 对 应 的 调用 
堆栈 的 内 存 地 址 进行 存储 ， 等 程序 使 用 delete\delete[]\free 方 法 的 时 候 ， 
再 取出 调用 堆栈 的 内 存 地 址 和 之 前 分 配 的 调用 堆栈 的 内 存 地 址 进行 配 
对 ， 如 果 没 有 配对 成 功 ， 即 为 内 存 泄漏 的 地 方 ， 最 终 将 所 有 内 存 泄漏 的 
调用 堆栈 地 址 存储 到 内 存 泄漏 文件 中 。 


要 完成 第 一 部 分 的 功能 ， 需 要 将 LeakTracer 集 成 到 App 的 Native 层 。 
读者 在 集成 的 时 候 ， 一 定 要 使 用 代码 仓库 中 的 LeakTracer 的 源码 ， 因 为 
LeakTracer 要 针对 Android 平 台 做 一 些 特殊 的 改动 ， 其 中 有 两 个 最 重要 的 
改动 。 


:第 一 个 改动 : 在 MemoryTrace.cpp 的 init_no_alloc_allowed 方 法 中 ， 
使 用 dlsym 加 载 动态 链接 库 时 ， 传 入 的 常量 由 RTLD_NEXT 改 为 
RILD DEFAULT., 

















:第 二 个 改动 : 在 MemoryTrace.hpp 的 storeAllocationStack 方 法 中 ， 将 
获取 函数 调用 堆栈 的 方法 由 builtin_frame_address 和 
_bnuiltin_return_address 改 为 Android 平 台 支 持 的 _Unwind_Backtrace。 


将 整个 LeakTracer 的 目录 放 入 Native 代 人 码 中 ， 然 后 在 Android.mk 中 添 
加 以 下 代码 : 





LOCAL_C_INCLUDES += $(LOCAL_ PATH)/libleaktracer/include 
LOCAL_SRC_FILES += \ 
./libleaktracer/src/AllocationHandlers.cpp \ 
./libleaktracer/src/MemoryTrace.cpp 





上 述 makefile 文 件 会 将 对 应 的 源码 文件 编译 进来 ， 然 后 就 是 集成 阶 
段 了 。 在 JNI 层 的 一 个 文件 中 ， 加 入 以 下 代码 : 





JNIEXPORT jint JNICALL JNI OnLoad(JavaVM* vm, void* reserved) { 
JNIEnVv* env = NULL; 
if (vm->GetEnv((void**) &env, JNI_VERSION 1 4) != JNI_OK) { 
return -1; 


} 

// leak tracer start recording 

leaktracer: :MemoryTrace: :GetInstance().startMonitoringAllThreads( ); 
return JNI_VERSION 1 4， 





上 述 代 人 码 会 在 应 用 程序 加 载 这 个 so 包 ， 之 后 调用 LeakTracer 的 启动 
监测 的 方法 ， 将 整个 LeakTracer 局 动 起 来 ， 从 而 监测 所 有 的 内 存 分 配 与 
释放 。 增加 以 下 代码 的 调用 ， 束 可 将 有 内 存 泄 漏 的 地 
J : 














JNIEXPORT void JNICALL Java com example c_ layer_NativeProcessor_destroy 
(JNIEnV * env, jobject obj) { 
const char *fPath = "/mnt/sdcard/mem_ leak.10g"; 
leaktracer: :MemoryTrace: :GetInstance().writeLeaksToFile(fPath); 





接 下 来 模拟 一 个 内 存 泄漏 ， 该 泄漏 就 在 这 个 JNI 层 的 代码 调用 的 
png_decoder 类 中 ， 代 码 如 下 : 





int PngPicDecoder::openFile() { 
short* buffer = new short[1024]; 
return 1; 














很 显然 ， 只 要 执行 这 段 代码 ， 就 会 产生 内 存 汇 漏 。 最 后 需要 在 文件 
Application.mk 中 加 入 以 下 这 行 代码 : 





APP_OPTIM := debug 





凸 述 这 行 代码 要 设置 编译 出 来 的 so 包 丰 Debug 关 型 ， 人 否则 不 能 取出 
上 县。 如 果 不 想 在 Application.mk 中 设置 这 个 参数 ， 那 么 就 
要 在 执行 ndk- build 的 时 候 在 后 面 加 上 参数 NDK_DEBUG， 即 执行 如 下 


指令 : 





ndk-build NDK_DEBUG=1 





如 果 开 发 环境 是 在 Eclipse 下 ， 同 时 又 依靠 Eclipse 配置 的 NDK 来 编译 
so 包 ， 那 么 就 需要 右 击 工 程 进入 Properties， 然 后 找到 C/C++Build 选 项 ， 
将 Builder 中 的 复 选 框 去 掉 ， 在 Build command 中 输入 上 面 的 参数 即 可 。 


将 整个 App 运 行 到 手机 上 ， 然 后 点 击 自己 的 测试 用 例 ， 待 退出 后 ， 
利用 adb pull 命 令 将 SD 卡 路 径 下 的 mem_leak.log 拿 出 来 就 是 LeakTracer 为 
生成 的 内 存 泄漏 文件 了 。 


接 下 来 进入 第 二 阶段 ， 即 解析 内 存 泄漏 文件 成 为 肉眼 可 读 的 由 三 分 
配 堆栈 信息 。 使 用 代码 仓库 中 的 leakAnalysis.py 脚 本 来 分 析 堆 栈 信息 ， 
这 个 脚本 需要 的 第 一 个 输入 是 编译 so 包 的 时 候 在 obj 目 录 下 带 有 symbol 
file 的 libMemoryLeak.so， 第 二 个 输入 是 上 一 步 生 成 的 内 存 泄 漏 文 件 ， 然 
后 运行 如 下 命令 : 





python leakAnalysis.py ./libMemoryLeak.so mem leak.1log 





要 想 正 确 执行 上 述 脚 本 ， 需 要 正确 配置 NDKROOT 这 个 环境 变量 ， 
因为 脚本 中 需要 用 NDK 里 提供 的 工具 进行 解析 符号 表 。 脚 本 执行 完毕 之 
后 ， 会 将 内 存 分 配 的 堆栈 信息 输出 到 屏 硕 上 。 如 果 广 痢 想 把 结果 放 到 六 
件 中 ， 可 以 直接 执行 如 F 命 令 ， 这 个 脚本 会 接受 第 三 个 参数 为 输出 内 存 
泄漏 信息 的 文件 : 








python leakAnalysis.py ./libMemoryLeak.so mem_ leak.1log leak.txt 





打开 leak.txt， 可 以 看 到 内 存 分 配 的 堆栈 信息 以 及 一 些 主 要 信息 ， 如 
下 : 





"leaked bytes": 2048, 

"occurred time": "2017-06-14 17:32:40", 

"stack_list": [ 
"memory_leak/native mem case/png_decoder.cpp:18", 
"memory_leak/native_mem case/NativeMemoryLeak.cpp:33" 


]， 
"unique_hash" : "484FB1D9FFA75AA79F9FC51D7D453DCE" 
}, 
] 





以 上 代码 中 包含 的 几 个 重要 信息 为 泄漏 的 字 节 大 小 、 汇 漏 的 时 间 ， 
以 及 内 存 分 配 的 堆栈 信息 等 ， 还 有 一 个 哈 希 值 作 为 唯一 标识 。 那 在 
Python 脚本 中 是 如 何 实现 解析 内 存 分 配 堆 栈 信息 的 呢 ? 实际 上 是 使 用 前 
面 讲解 的 NDK 提 供 的 addr2line 工 具 将 调用 地 址 解析 为 代码 的 调用 堆栈 信 
恩 的 ， 可 以 先 打 开 第 一 步 产 生 的 mem_leak.log， 如 下 : 





# LeakTracer report diff_utc mono=1497335780.019908 
leak, time=96980.220532, stack=Oxcf9c 0xd10c Oxd480 Oxbe34 Oxc654, size=204E 








a i en a 
上 息 、 内 存 泄漏 的 大 小 等 。 其 实数 据 (data) 没有 任何 意义 。 脚 本 中 需 
人 
用 前 面 讲解 的 addr2line 工 具 ， 则 代码 如 下 : 











NDK_GCC_TOOL_DIRECTORY=$NDKROOT/toolchains/arm-linux-androideabi- 
4.9/prebuilt 
/darwin-x86_64/bin/ 
$NDK_GCC_TOOL_DIRECTORY/arm-linux-androideabi-addr2line -e libMemoryLeak.so 
Oxcf9c 0xd10c 0xd480 QOxbe34 QOxc654 





首先 根据 NDKROOT 的 路 径 构造 出 GCC 工具 存在 的 路 径 ， 然 后 使 用 
0 file 的 so 中 找 出 真正 的 调用 
堆栈 信息 ， 上 述 命令 执行 结果 如 下 : 





./Native mem case/libleaktracer/include/MemoryTrace.hpp:379 
./Native mem case/libleaktracer/include/MemoryTrace.hpp:429 
./Native mem case/libleaktracer/src/AllocationHandlers.cpp:40 
./Native mem case/png_decoder .cpp:18 

./Native_mem case/NativeMemoryLeak.cpp:33 





由 于 篇 幅 的 关系 ， 这 里 的 路 径 都 以 相对 路 径 标识 ， 可 以 看 到 ， 几 个 


内 存 地 址 就 会 解析 出 几 个 源 文件 的 代码 行 数 的 调用 关系 。 这 里 可 
libleaktracer 的 前 绥 都 去 掉 ， 因 为 其 中 一 些 重 载 了 操作 符 ， 也 就 是 说 ， 

面 才 是 真正 业务 代码 的 泄漏 堆栈 信息 ， 而 在 Python 脚本 中 了 驶 把 带 有 
leaktracer 前 级 的 调用 堆栈 去 挥 了 。 第 二 步 的 原理 解释 完毕 了 了 ， 所 以 最 方 
便 的 解析 方式 还 是 使 用 上 述 的 Python 脚 本 。 


在 Android 平 台 使 用 LeakTracer 作 为 内 存 泄 漏 的 检测 工具 是 比较 成 熟 
的 做 法 ， 读 者 可 以 参考 代码 仓库 中 的 源码 深入 理解 。 





13.1.5 ”breakpad 收 集 线 上 Crash 


breakpad 是 Google 提 供 的 一 套 包 含 客 户 端 和 服务 端的 开源 组 件 ， 用 
于 收集 客户 端 Native 层 的 Crash。 读 者 可 以 从 Google “Code 上 下 载 最 新 代 
码 ， 也 可 以 使 用 本 书 代 码 目录 中 的 breakpad 源 码 ， 其 中 Google Code 上 的 
代码 地 址 为 : 





http://google-breakpad.googlecode.com/svn/trunk/ 





既然 breakpad 由 客户 并 和 服务 占 端 两 部 分 组 件 组 成 ， 下 面 就 分 为 客 
户 端 和 服务 端 两 部 分 进行 介绍 。 


(1) 客户 端 部 分 


首先 将 breakpad 客 户 端 部 分 的 代码 集成 入 客户 端的 Native 代 码 中 ; 
然后 当 Native 层 发 生 Crash 行 为 的 时 候 ，breakpad 会 将 Crash 的 信息 以 二 进 
制 形 式 写 入 minidump 文 件 ， 最 后 客户 端 要 将 这 个 minidump 文 件 上 传 到 
服务 器 上 。 


(2) 服务 端 部 分 


首先 将 breakpad 服 务 端 工具 编译 出 来 ， 放 入 合适 的 目录 下 ; 然后 利 
用 dump_syms 工 具 将 客户 端 构建 的 市 有 symbol File 的 so 包 的 symbol File 
导出 到 指定 目录 ， 最 后 把 客户 端 上 传 的 minidump 文 件 和 symbol File 目 录 
作为 输入 ， 利 用 minidump_stackwalk 工 具 生 成 Crash 现 场 。 


上 面 描述 了 整个 breakpad 的 工作 流程 ， 接 下 详细 讲解 整个 流程 的 细 
节 。 首 先 来 看 如 何 将 breakpad 的 代码 集成 入 我 们 的 客户 端 ， 一 般 集 成 第 
三 方 库 到 客户 端 中 使 用 的 方法 都 是 将 第 三 方 库 编译 为 静态 库 的 方式 放 入 
prebuilt 目 录 下 ， 然 后 在 Android.mk 中 进行 引用 ， 而 这 里 使 用 另外 一 种 方 
式 ， 即 将 breakpad 中 的 源码 都 放 到 一 个 Android.mk 中 进行 编译 ， 要 编译 
breakpad， 必 须 使 用 的 ndk 版 本 在 rl10c 以 上 ， 因 此 需要 更 改 
Application.mk， 如 下 : 











APP_ABI := armeabi-V7a 
APP_STL := gnustl_ static 
APP_CPPFLAGS := -std=gnu++11 -fexceptions -D_ STDC_LIMIT_ MACROS 


NDK_TOOLCHAIN_VERSION = 4.8 
APP_PLATFORM := android-9 





在 breakpad 目 录 的 android 目 录 的 google_breakpad 目 录 下 ,将 
Android.mk 这 个 makefile 文 件 拿 出 来 放 到 一 个 我 们 自己 建立 的 libbreakpad 
目录 下 ， 然 后 将 breakpad 目 录 下 的 src 目 录 也 拷贝 到 我 们 新 建 的 这 个 目录 
下 ， 这 样 libbreakpad 目 录 作 为 一 个 Module 就 建立 好 了 。 接 下 来 需要 将 这 
人 








LOCAL_STATIC_LIBRARIES += libbreakpad_client 
LOCAL_C_INCLUDES += \ 
$(LOCAL_PATH)/libbreakpad/src \ 
$(LOCAL_PATH)/libbreakpad/common/android/include 





接着 在 入 口 的 cpp 文 件 中 引入 breakpad， 引 入 头 文 件 如 下 : 





#include"client/linux/handler/exception_ handler.h" 
#include"client/linux/handler/minidump_descriptor.h" 





然后 ， 在 加 载 so 的 回调 方法 中 将 breakpad 的 Crash 拦 截 器 启动 起 来 : 





static google breakpad: :ExceptionHandler *handler = NULL 

JNIEXPORT jint JNICALL JNI OnLoad(JavaVM* vm, void* reserved){ 
const char* nativeLogPath = "/mnt/sdcard/appname/tombstones"; 
google_breakpad: :MinidumpDescriptor descriptor(nativeLogPath); 
handler = new google breakpad::ExceptionHandler(descriptor, 

NULL, NULL, NULL, true, -1); 

return JNI_VERSION 1 6,; 

} 





之 后 执行 hdk-build， 并 构建 so 包 。 注 意 ， 这 个 ndk-build 必 须 是 r10c 
版 本 以 上 ， 最 终 构 建 so 包 成 功 之 后 ， 可 以 在 libs 目 录 下 找到 so 包 ， 而 在 
obj 目 录 下 可 以 找到 名 称 相同 的 另外 一 个 so 包 ， 并 且 这 个 so 包 比 libs 目 录 
下 的 so 包 要 大 不 少 ， 这 是 为 什么 昵 ? 先 来 看 图 13-12。 
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图 13-12 


如 图 13-12 所 示 ，obj 目 录 下 的 so 包 其 实 是 图 的 中 间 部 分 ， 包 括 应 用 
的 中 间 文 件 、breakpad 的 中 间 文 件 以 及 代码 调试 信息 ， 而 libs 目 录 下 的 so 
包 是 将 所 有 的 代码 调试 信息 消除 掉 (strip) 的 包 ， 是 最 终 要 集成 到 App 
中 分 发 给 用 户 使 用 的 。 使 用 breakpad 服 务 绒 骨 编 译 出 来 的 dump_syms 工 
有 具 将 obj 目 录 下 的 so 包 中 的 代码 调试 信息 部 分 解析 出 来 ， 并 放 入 合适 的 路 
径 下 。 注意 ， 这 里 集成 到 App 里 的 so 必须 要 和 服务 器 端 解析 symbol File 
的 调 试 信 息 对 应 起 来 ， 否 则 解析 不 出 正确 的 方法 调用 堆栈 。 可 能 有 读者 
会 想 ， 这 里 的 dump syms 征 如 何 纲 译 出 来 的 呢 ? 其 实 很 简单 ， 首 先 找 一 
全 台 Linux 机 器 ， 在 breakpad 目 录 下 执行 以 下 命令 : 











./configure && make 





之 后 在 breakpad 的 src/tools/linux/ 目 录 下 就 可 以 看 到 编译 出 来 的 
dump_syms 工 具 了 ， 同 时 在 src/processor 目 录 下 可 以 看 到 即将 用 到 的 
minidump_stackwalk 工 具 。 接 下 来 看 看 当 用 户 手 中 的 客户 端 发 生 了 
Native 层 的 朋 尝 时 ， 客 户 端的 行为 是 什么 ， 如 图 13-13 所 示 。 
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图 13-13 


在 图 13-13 中 ， 当 客户 端的 Native 层 〈Application Code) 发 生 央 沉 的 
时 候 ， 配 置 的 breakpad 会 将 骨 泪 信息 拦截 下 来 ， 并 生成 一 个 二 进 制 
mini dump 文件 ， 最 后 客户 端 将 这 个 文件 上 传 到 专门 收集 与 处 理 衣 省 信 
息 的 服务 器 上 ， 即 图 中 的 Crash Collector。 那 接 下 来 服务 器 会 如 何 做 
呢 ? 如 图 13-14 所 示 。 
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图 13-14 
在 图 13-14 中 ， 服 务 器 端 会 将 第 一 步 产生 的 代码 调试 信息 和 第 二 步 


客户 端 上 传 的 mini_ dump 二 进 制 文件 作为 minidump_stackwalk 工 具 的 输 
入 ， 最 终 输出 肉眼 可 读 的 崩 演 现场。 


至 此 ， 如 何 利 用 breakpad 收 集 Native 层 的 骨 尝 就 介绍 完毕 了 ， 使 用 
工具 的 同时 ， 最 好 也 要 理解 清楚 原理 ， 这 样 可 以 在 遇 到 其 他 类 似 问 题 的 
时 候 触 类 和 劳 通 。 当 然 ， 使 用 第 三 方 收集 Native 层 骨 训 的 SDK 也 可 以 ， 比 
如 CrashLytics 等 ， 但 是 理解 了 原理 之 后 ， 会 发 现 它们 的 本 质 其 实 都 是 一 
样 的 。 使 用 第 三 方 收集 Native 层 的 骨 尝 当然 有 好 处 也 有 坏处 ， 读 者 可 以 
根据 自己 的 应 用 场景 来 决定 如 何 收集 Native 层 的 朋 江 。 











13.2 _ iOS 使 用 mstruments 诊 断 应 用 


Instruments 是 一 个 很 灵活 的 、 强 大 的 工具 ， 是 性 能 分 析 、 动 态 跟踪 
和 分 析 OS X 以 及 iDOS 代 码 的 测试 工具 。 使 用 它 可 以 极为 方便 地 收集 一 个 
或 多 个 系统 进程 的 性 能 和 行为 的 数据 ， 并 能 及 时 跟随 时 间 产 生 的 数据 ， 
而 且 可 以 检查 所 收集 的 数据 ， 还 可 以 广泛 收集 不 同类 型 的 数据 。 此 外 ， 
还 可 以 追踪 程序 运行 的 过 程 ， 这 样 Ihnstruments 就 可 以 帮助 我 们 了 解 用 户 
的 应 用 程序 和 操作 系统 的 行为 。 本 节 以 视频 播放 器 项 目 为 例 ， 使 用 
Instruments 提 供 的 工具 分 别 从 CPU 占 用 、 内 存 分 配 以 及 内 存 泄漏 等 方面 
进行 分 析 ， 最 后 会 在 Instruments 的 帮助 下 ， 比 较 播放 器 中 的 解码 器 模块 
使 用 硬件 解码 器 和 软件 解码 器 的 各 项 性 能 指标 。 


13.2.1 Debug Navigator 
在 介绍 Instrruments 工 具 之 前 ， 先 看 Xcode 
中 左 侧 的 选项 ， 其 中 有 一 个 Show the Debug navigator， 选 中 它 ， 会 


显示 当前 调试 的 这 个 App 的 CPU 占用 情况 、 内 存 占 用 情况 (Memory) 、 
电量 消耗 情况 〈Energey Impact) 等 ， 如 图 13-15 所 示 。 
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图 13-15 


点 开 每 个 维度 都 会 有 县 体 的 实时 数据 和 一 个 随 着 时 间 变 化 的 动态 时 
间 线 - 下 面 看 看 软件 解码 和 硬件 解码 在 CPU 维度 的 占用 情况 ， 如 图 
13-16 所 不 。 





Usage over 48% 
Time 

Duration: 4 min 58 sec 
High: 89% 

Low: 0% 





JS 220 


图 13-16 


在 图 13-16 中 ， 中 间 的 CPU 占用 突然 下 降 就 是 由 软件 解码 器 切换 到 
硬件 解码 器 的 时 间 点 ， 前 半 部 分 是 使 用 软件 解码 器 的 CPU 占用 变化 图 ， 
后 半 部 分 是 使 用 硬件 解码 器 的 CPU 占用 变化 图 。 使 用 软件 解码 器 的 时 
候 ，CPU 的 占用 为 30% 左 在 ， 切 换 到 硬件 解码 器 之 后 CPU 的 占用 下 降 到 
了 20% 左 右 。 笔 者 用 来 测试 的 视频 分 辨 率 为 640x360，fps 为 24， 测 试 设 
备 是 iPhone 6S。 大 家 不 要 小 看 CPU 上 这 10% 的 占用 ， 如 果 在 一 个 直播 场 
景 下 ， 还 会 有 动画 、 聊 天 等 CPU 消耗 比较 大 的 线程 ， 而 这 10% 的 CPU 吏 
很 有 可 能 影响 到 用 户 端 的 流畅 度 了 。 一 旦 观看 的 视频 分 辩 率 更 高 、fps 
更 大 ，CPU 的 对 比 会 更 加 明显 。 细 心 的 读者 可 能 会 发 现 ，CPU 的 占用 图 
一 直 是 波形 的 结构 ， 这 是 为 什么 昵 ? 大 家 还 记得 AVSync 模 块 中 解码 线 
程 的 运行 策略 吗 ? 当 队 列 中 的 数据 到 达 MaxDuration 的 时 候 ， 解 码 线程 
暂停 解码 ， 而 消费 者 线程 会 消费 队列 中 的 数据 。 当 队列 中 的 数据 小 于 
MinDuration 的 时 候 ， 解 码 线程 会 继续 解码 ， 而 解码 线程 所 耗费 的 CPU 是 
巨大 的 ， 所 以 当 解 码 线程 运行 的 时 候 ，CPU 的 消耗 就 达到 了 波峰 的 位 
置 ， 当 解码 线程 暂停 的 时 候 ，CPU 的 消耗 则 达到 了 波 谷 的 位 置 ， 若 将 时 
间作 为 横 轴 来 看 CPU 占用 的 变化 情况 ， 就 形成 了 如 图 13-16 所 示 的 这 种 
波形 图 。 下 面 对 比 硬件 解码 和 软件 解码 在 内 存 中 的 占用 情况 ， 这 个 维度 
的 变化 如 图 13-17 所 示 。 
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在 图 13-17 中 ， 内 存 突然 从 50MB 以 上 下 降 到 10MB 左 右 就 是 从 软件 
解码 器 切换 到 硬件 解码 器 ， 前 半 部 分 是 使 用 软件 解码 器 时 占用 的 内 存 ， 
后 半 部 分 是 使 用 硬件 解码 器 时 占用 的 内 存 。 为 什么 内 存 的 占用 会 突然 下 
降 了 这 么 多 ? 原因 是 构造 的 VideoFrame 结 构 体 中 不 再 使 用 内 存 中 存储 的 
YUV 数 据 ， 而 使 用 iOS 的 “ 主 存储 ”中 的 CVImageBufferRef。 切 换 为 硬件 
解码 器 后 ， 内 存 占 用 的 下 降 对 于 整个 App 的 流畅 运行 也 是 一 件 好 的 事 
情 ， 因 为 内 存 可 以 用 来 存储 更 多 的 图 片 缓存 等 数据 。 


在 Debug Navigator 中 还 有 一 些 其 他 指标 ， 比 如 电量 的 消耗 、 硬 盘 
IO 的 占用 、 网 络 MO 的 占用 以 及 界面 刷新 频率 〈FPS) 等 。 奋 要 粗略 地 
了 解 一 个 App 的 运行 情况 ， 可 以 从 这 里 快速 得 到 结果 。 但 是 ， 如 果 想 发 
现 更 加 细节 的 问题 或 者 要 解决 某 个 具体 的 问题 ， 那 么 就 需要 使 用 
Instruments 工 具 来 定位 问题 。 接 下 来 继续 使 用 mstruments 来 分 析 我 们 的 
视频 播放 器 项 目 。 





13.2.2 Time Profiler 


Time Profiler 工 具 是 用 来 分 析 方 法 的 执行 时 间 的 ， 它 可 以 找 出 哪些 
方法 以 及 哪些 线程 执行 的 时 间 比 较 长 ， 一 般 用 作 性 能 分 析 的 工具 。 使 用 
这 个 工具 时 ， 有 一 点 需要 注意 ， 即 测试 的 App 一 定 要 运行 在 真 机 设备 
上 ， 因 为 模拟 器 运行 在 Mac 电 脑 上 ， 而 电脑 的 CPU 运行 速度 要 比 iDOS 设 
备 的 快 ， 相 反 ，Mac 上 的 GPU 和 iOS 设 备 的 完全 不 一 样 ， 模 拟 器 不 得 已 
要 在 软件 层面 (CPU) 模拟 设备 的 GPU， 这 意味 着 GPU 相关 的 操作 在 模 
拟 器 上 运行 得 更 慢 ，— 典 型 的 场景 如 视频 播放 器 项 目 、 视 频 录 制 项 目 ， 都 
与 CAEAGLayer 的 绘制 相关 。 


在 Xcode 中 的 左上 方 Run 的 地 方 长 击 ， 然 后 在 弹出 的 且 单 中 选择 
Profile，Xcode 会 编译 程序 并 启动 Instruments， 然 后 在 Instruments 界 面 中 
选择 Time Profiler 工 具 。 进 入 Time Profiler 界 面 之 后 点 击 左上 角 的 
Recording 来 启动 应 用 。 竺 应 用 启动 之 后 ， 在 Call Tree 中 的 工具 已 经 默认 
选择 了 Separate by Thread 选 项 ， 这 个 选项 的 意思 是 会 按照 各 个 线程 来 显 
示 CPU 的 占用 情况 。 我 们 可 以 选择 Invert Call Tree 选项 ， 这 个 选项 的 意 
义 是 可 以 直接 看 到 方法 调用 路 径 最 深 的 方法 CPU 的 占用 情况 ;我 们 还 会 

















选择 Hide System Libraries 选 项 ， 这 个 选项 的 意义 是 隐藏 掉 系 统 代码 的 耗 
时 ， 因 为 一 般 情 况 下 我 们 仅 关 心目 己 的 业务 代码 的 CPU 耗 时 ， 所 以 勺 选 
这 个 选项 非常 有 利于 分 析 业 务 代 人 码 的 CPU 消耗 。 勾 选 之 后 并 运行 ， 可 看 
到 如 图 13-18 所 示 的 界面 。 





Weightv Self Weight Symbol Name 
12.96 s 100.0% Os vvideo_player (7331) © 
3.26s 25.1% Os pirame_worker_thread Ox44aede 
2.91S 22.4% Os pirame_worker_thread 0x44aedd 
2.83s 21.8% Os pirame_worker_thread 0x44aedf 
1.38s 10.6% Os pb-[AVSynchronizer decodeFrames] 0x44aee0 
641.00 ms 4.9% Os b_dispatch_worker_thread3 Ox44aed3 
606.00 ms 4.6% Os b_dispatch_worker_thread3 Ox44aed2 
573.00 ms 4.4% Os b_dispatch_worker_thread3 0x44aed0 
549.00 ms 4.2% Os AURemotelo::IOThread::Run Ox44aef4 
170.00 ms 1.3% Os pMain Thread Ox44aec2 
35.00 ms 0.2% Os b_dispatch_worker_thread3 Dx44aecf 
12.00 ms 0.0% Os bp-[AVSynchronizer decodeFramesWithDuration:] 0x44aee1 
3.00 ms 0.0% Os PGenericRunLoopThread::Entry Ox44aee2 
图 13-18 


图 13-18 是 使 用 软件 解码 的 视频 播放 器 播放 80s 的 视频 。 各 个 线程 的 





CPU 占 用 情况 ， 前 三 个 可 能 看 起 来 比较 奇怪 ， 因 为 我 们 并 没有 启动 这 样 
的 线程 ， 而 且 还 占用 了 这 么 多 的 CPU。 其 实 这 是 FFmpeg 为 解码 开辟 的 
三 个 异步 解码 线程 ， 并 且 这 三 个 线程 占用 了 最 多 的 CPU 时 间 片 。 接 着 来 
看 AVSync 模 块 的 decodeFrames 方 法 ， 它 就 是 我 们 自己 开启 的 解码 线 

程 ， 相 较 而 言 ， 这 个 占用 的 CPU 时 间 片 也 非常 多 ， 所 以 可 以 看 到 整个 解 
码 共 占用 了 整个 App 中 的 82.5% 的 CPU 时 间 片 。 至 于 接 下 来 的 两 个 
dispatch worker thread， 是 VideoOutput 模 块 中 的 泻 染 线程 ， 由 于 演 染 线 
程 使 用 的 是 NSOperationQueue， 所 以 也 可 以 看 到 这 个 线程 模型 的 内 部 实 
现 开 局 了 多 个 worker 来 轮 询 Queue 中 的 Operation。 最 后 是 AURemoteIO 这 
个 音频 播放 的 线程 所 占用 的 CPU 时 间 片 ， 由 于 AudioOutput 模 块 使 用 的 
是 AUGraph， 而 AUGraph 是 靠 RemoteIO Unit 来 驱动 的 ， 所 以 展示 在 这 里 
的 线程 名 字 就 是 AURemoteIO: : IOThread: Run。 后 面 还 有 其 他 线程 ， 
比如 MainThread 等 ， 占 用 CPU 的 时 间 方 就 比较 少 了 。 基 于 此 ， 可 以 分 析 
出 ， 时 间 的 消耗 大 部 分 都 花费 在 了 解码 线程 上 ， 那 么 如 何 优 化 呢 ? 使 用 
硬件 解码 代替 软件 解码 ， 可 以 减少 对 解码 线程 的 CPU 时 间 片 的 分 配 ， 下 
面 来 看 将 视频 播放 器 中 的 解码 模块 车 换 为 硬件 解码 方案 的 Time Profiler 
图 ， 如 图 13-19 所 示 。 


图 13-19 展 示 的 是 将 解码 器 模块 的 实现 由 软件 解码 器 蔡 换 为 硬件 解 
码 器 播放 80s 后 各 个 线程 所 占用 CPU 时 间 片 的 情况 。 最 明显 的 是 整个 App 
被 分 配 到 的 时 间 片 只 有 6.18s， 比 使 用 软件 解码 器 少 了 一 半 的 时 间 ， 并 且 
解码 线程 所 占用 的 CPU 时 间 片 也 大 大 减少 了 。 同 时 也 完全 可 以 印证 了 
13.2.1 节 中 CPU 的 占用 从 30% 下 降 到 20% 的 原理 。 这 只 是 通过 Time 
Profiler 检 查 与 验证 这 种 大 模块 的 替换 与 优化 ， 对 于 一 些小 的 细节 性 优 
化 ， 比 如 普通 的 Queue 更 改 为 Blocking 类 型 的 Queue， 也 可 以 让 CPU 占用 
降低 。 











Weightv Self Weight Symbol Name 


Yvideo_player (7332) + 





1.70s 27.4% 0s #-[AVSynchronizer decodeFrames] Ox44b030 


855.00 ms 13.8% Os b_dispatch_worker_thread3 Ox44b003 

819.00 ms 13.2% Os b_dispatch_kevent_worker_thread 0x44b002 

687.00 ms 11.1% Os b_dispatch_kevent_worker_thread 0x44b000 

652.00 ms 10.5% Os b_dispatch_worker_thread3 Ox44b001 

649.00 ms 10.5% Os PAURemotelO::IOThread::Run DOx44b042 

643.00 ms 10.4% Os pb_dispatch_worker_thread3 Ox44afff 

166.00 ms 2.6% Os pMain Thread Ox44afee 

6.00 ms 0.0% Os #-[AVSynchronizer decodeFramesWithDuration:] Ox44b031 
6.00 ms 0.0% Os PGenericRunLoopThread::Entry DOx44b032 


图 13-19 


Time Profiler 工 具 可 以 用 来 检测 系统 的 性 能 瓶颈 ， 根 据 线程 以 及 方 
法 的 耗 时 情况 ， 开 发 人 员 可 以 合理 优化 自己 的 App， 提 升 用 户 体验 。 但 
是 一 定 要 注意 的 是 ， 优 化 代码 是 在 代码 运行 正确 的 基础 之 上 的 ， 所 以 一 
定 要 对 修改 代码 的 影响 部 分 进行 充分 测试 。 





13.2.3 Allocations 


管理 内 存 是 App 开 发 中 最 重要 的 一 个 方面 ， 在 音 视频 的 开发 中 ， 内 
存 管 理 更 是 非常 重要 。 相 较 于 电脑 ， 移 动 设备 内 存 是 更 紧缺 的 资源 ， 在 
iOS 的 开发 中 ， 开 发 者 通常 使 用 Instruments 里 的 Allocations 工 具 来 定位 和 
找 出 减少 内 存 使 用 的 方式 ， 比 如 可 能 通过 改进 程序 架构 和 算法 来 实现 。 
但 是 ， 再 好 的 App 设 计 都 会 被 不 同 的 内 存 问 题 困 扰 。 


打开 Allocations 界 面 ， 运 行 应 用 程序 ， 然 后 选择 Generrations 快 照 工 
具 来 完成 本 节 的 学 习 。 在 进入 播放 界面 之 前 ， 先 来 做 一 个 快照 (点 击 
Mark Generation 按 钮 ) ， 然 后 进入 播放 界面 播放 视频 ， 在 播放 视频 过 程 
中 再 做 一 个 快照 ， 最 后 退出 播放 界面 ， 并 做 一 个 快照 ， 如 图 13-20 所 
小 。 
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GenerationA © 00:06.730.145 ’ 
PGeneration B 00;27.270.587 948.47 KiB 2,707 
PGeneration C 00'38.299.630 456.45 KiB 634 
Mark Generation | | All Heap & Anonymous YM 
图 13-20 


在 图 13-20 中 ， 从 下 方 区 域 可 以 看 到 生成 的 三 个 快照 ， 在 每 个 快照 
的 Growth 这 一 列 ， 可 以 点 击 每 一 行使 其 展开 ， 这 样 就 可 以 看 到 这 个 快照 
增长 的 内 存 有 哪些 ， 对 比 快照 A 和 快照 C 可 以 友 现 有 没有 内 存 泄 漏 ， 因 
为 A 和 C 恰 好 是 进入 播放 页 面 和 退出 播放 页 面 ， 如 果 在 Growth 这 一 列 中 
看 到 有 上 自己 分 配 的 对 象 还 没有 被 释放 ， 那 么 就 可 能 是 内 存 泄漏 ， 可 以 进 


一 步 分 析 。 


当然 ， 内 存 占 用 较 大 也 不 一 定 是 坏事 ， 这 就 是 所 谓 的 空间 和 时 间 的 
置换 问题 ， 对 于 每 一 个 App， 应 该 根据 上 自己 的 场景 来 合理 使 用 内 存 。 像 
拉 流 播放 器 项 目 中 ， 如 果 MaxBufferDuration 设 置 的 大 一 些 ， 就 会 使 得 整 
个 程序 占用 内 存 大 一 些 ， 不 会 因为 网 络 的 抖动 产生 卡 顿 现象 ， 但 是 ， 如 
果 当 用 户 看 了 几 秒 钟 就 退出 了 ， 那 么 束 浪 费 了 用 户 的 网 络 带 守 ， 所 以 对 
于 这 种 情况 ， 束 应 该 根据 自己 的 产品 场景 来 设置 视频 绥 存 长 上 度 的 大 小 。 
而 在 普通 的 OS 开发 中 常常 会 过 到 类 似 问 题 ， 比 如 图 片 缓存 的 场景 ， 如 
果 缓 存 设置 太 小 ， 就 有 可 能 使 得 图 片 重新 下 载 率 比 较 高 ， 如 果 设 置 过 
大 ， 重 新 下 载 率 降低 ， 但 是 占用 内 存 又 升 高 ， 所 以 也 应 该 根据 产品 场景 
来 决定 如 何 设置 图 片 缓存 的 大 小 。 总 之 ，App 占 用 内 存 不 是 越 小 越 好 ， 
而 是 应 合理 为 好 ， 读 者 可 以 回顾 一 下 目 己 产品 对 于 内 存 使 用 的 策略 ， 是 
个 有 该 调整 的 地 方 。 
































13.2.4 Leaks 


内 存 泄漏 (Memory Leak) 是 指 程序 在 申请 内 存 之 后 ， 无 法 释放 已 
申请 的 内 存 空间 ， 一 次 内 存 泄 漏 危害 可 以 忽略 ， 但 内 存 泄 漏 堆积 后 果 是 
很 严重 的 ， 最 终 会 造成 内 存 洲 出 ， 致 使 整个 程序 骨 尝 。 在 首 视 频 开 发 过 
程 中 ， 一旦 音频 帧 数据 或 者 视频 帧 数据 有 泄漏 ， 会 使 得 整个 内 存 诡 升 严 
和 章 。 内 存 泄漏 一 般 分 为 以 下 四 种 情况 。 


(1) 和 常 发 性 内 存 泄漏 


发 生 内 存 泄 漏 的 代码 会 被 多 次 执行 到 ， 每 次 被 执行 的 时 候 都 会 导致 
一 块 内 存 泄 漏 。 


(2) 侦 发 性 内 存 泄漏 


发 生 内 存 汇源 的 代码 只 有 在 某 些 特定 环境 或 操作 下 才 会 及 生 。 管 友 
性 和 偶发 性 是 相对 的 。 对 于 特定 的 环境 ， 偶 发 性 的 也 许 就 变 成 了 第 发 性 
的 。 所 以 测试 环境 和 测试 方法 对 检测 内 存 泄漏 至 关 重 要 。 


(3) 一 次 性 内 存 泄漏 


发 生 内 存 泄漏 的 代码 只 会 被 执行 一 次 ， 或 者 由 于 算法 上 的 缺陷 ， 会 
导致 有 一 块 且 仅 一 块 内 存 发 生 泄漏 。 比 如 ， 在 类 的 构造 函数 中 分 配 内 
存 ， 在 析 构 函数 中 却 没 有 释放 该 内 存 ， 所 以 内 存 泄漏 只 会 及 生 一 次 。 


(4) 隐 式 内 存 泄漏 


程序 在 运行 过 程 中 不 停 地 分 配 内 存 ， 但 是 直到 结束 的 时 候 才 释放 内 
存 。 严 格 来 说 ， 这 里 并 没有 发 生 内 存 汇 漏 ， 因 为 最 终 程序 释放 了 所 有 申 
请 的 内 存 。 但 是 ， 对 于 一 个 服务 器 程序 ， 需 要 运行 几 天 、 几 周 甚至 几 个 
月 ， 不 及 时 释放 内 存 也 可 能 导致 最 终 耗 尽 系统 的 所 有 内 存 。 所 以 ， 我 们 
称 这 类 内 存 泄漏 为 隐 式 内 存 泄漏 。 


从 用 户 使 用 程序 的 角度 来 看 ， 内 存 泄 漏 本 和 喘 不 会 产生 什么 危害 ， 作 
为 一 般 用 户 ， 根 本 感觉 不 到 内 存 泄 漏 的 存在 。 真 正 有 和 危害 的 是 内 存 泄漏 
的 堆积 ， 这 会 消耗 尽 系统 所 有 的 内 存 。 从 这 个 角度 来 说 ， 一 次 性 内 存 浊 
漏 并 没有 什么 危害 ， 因 为 它 不 会 堆积 ， 而 隐 式 内 存 泄漏 危害 则 非常 大 ， 



































因为 较 之 于 钊 发 性 内 存 泄 漏 和 偶发 性 内 存 泄漏 ， 它 更 难 被 检测 到 。 


下 面 介 绍 Instruments 里 的 Leaked 的 用 法 。 运 行 视频 播放 器 项 目 ， 然 
后 看 到 如 图 13-21 所 示 的 界面 。 


| iphonee pis (10.3) ) i videos Run1of 1 | 00.01:18 





和 Leak Checks 0 9 0 4 4 0 
图 13-21 


在 图 13-21 中 ， 上 面 那 一 行 是 内 存 和 匿名 虚拟 内 存 的 占用 情况 ， 下 
面 这 一 行 是 泄漏 的 检查 ， 工 具 默 认 每 10s 检 碍 一 次 ， 知 这 里 看 到 的 都 是 
对 与 ， 则 代表 没有 任何 内 存 泄漏 ， 证 明 这 个 App 运 行 良 好 。 但 是 ， 为 了 
演示 如 何 利 用 这 个 工具 来 分 析 首 视频 中 的 内 存 泄 漏 ， 束 需要 模拟 一 个 内 
存 泄漏 ， 然 后 使 用 工具 进行 检测 。 更 改 VideoDecoder.m 中 的 
closeAudioStream 方 法 ， 注 释 挥 其 中 释放 的 AVCodecContext 操 作 ， 代 码 
如 下 : 











- (void) closeAudioStream { 
//1: 释 放 重 采样 相关 的 资源 
//2: 释 放 AudioFrame 
//if (_audiocodecCtx) { 
//avcodec close(_audioCodecCtx); 








//_audioCodecCctx = NULL 
//} 
} 





closeAudioStream 方 法 的 第 三 步 是 释放 掉 音 频 流 的 Codec 上 下 文 ， 现 
在 注释 掉 这 四 行 代码 ， 然 后 重新 进行 Profile， 并 进入 检查 内 存 泄 漏 的 界 
面 ， 运 行程 序 ， 点 击 观看 视频 按钮 ， 观 看 20s 后 退出 视频 播放 界面 ， 可 
以 看 到 内 存 泄 漏 ， 如 图 13-22 所 示 。 
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图 13-22 


符 退 出 播放 器 界面 之 后 ， 发 生 了 内 存 泄 漏 《〈“ 出 现 了 错 号 ) ， 点 击 这 
个 按钮 ， 会 目 动 将 泄漏 的 调用 堆栈 显示 出 来 ， 如 图 13-23 所 示 。 


点 击 每 个 泄漏 的 内 存 ， 在 右 侧 都 会 显示 它 的 调用 堆栈 。 从 图 13-23 
中 可 以 看 到 ， 很 多 内 存 块 的 泄漏 都 与 YideoDecoder 类 中 的 
openAudioStream 方 法 有 关 ， 帮 点 击 这 个 方法 ， 会 直接 跳 转 到 代码 处 ， 
如 下 所 示 : 























Leaked Object # Address Sizev Responsible Library 。 Responsible Frame Stack Trace 
Malloc 448.00 KiB 1 0x106720000 @ 448.00 KiB Video_player av.malloc 日 malloc_zone_memalign 
pMalloc 8.00 KiB 2 < multiple > 16.00 KiB Video_player ay_malloc o| posix memalign 
Malloc 8.00 KiB 1 Ox10308ea00 8.00 KiB Video_player ay_malloc 回 ;, malloc 
Malloc 4.00 KiB 1 0x103094200 4.00 KiB Video_player ay_malloc 加 
Malloc 4.00 KiB 1 0x103095200 4.00 KiB Video_player ay_malloc L | vmaloc 
Malloc 4.00 KiB 1 0X103092800 4.00 KiB video.player av_malloc 图 outputconfigure 
Malloc 4.00 KiB 1 Ox10308d000 4.00 KiB Video_player ay_malloc EE decode_audio._specific_config 
Malloc 2.00 KiB 1 Ox103083600 2.00 KiB Video_player av_malloc 四 aac-d6codenit 
Malloc 2.00 KiB 1 0X103093800《 2.00 KiB Video_player avy_malloc 5 | avycodec_open2 
Malloc 1.00 KiB 1 Ox103083e00 1.00 KiB video_player ay_malloc -[VideoDecoder openAudioStream] 
Malloc 1.00 KiB 1 Ox103083200 1.00 KiB Video_player avy_malloc -VideoDecoder openFile:parameter:error 
te Ubu MY lew "[AVSynchronizer openFile:usingHWCodec:parameters:error:] 
| | pe g p 
Malloc 512 Bytes 0X102919650 512 Bytes video_player av_malloc 34dvoeoniayerviewcontoler star bock nvote 
Mallne 512 Rvtes 1 Mx10291a900 512 Rvtes viden nlaver av mallor = 
图 13-23 





Int openCodecErrCode = 0; 

if ((openCodecErrCode = avcodec open2(codecCtx, codec, NULL)) < 0){ 
NSLog(@"Open Audio Codec Failed %s", av_err2str(openCodecErrCode)); 
return NO; 





从 上 述 代 码 中 可 以 看 到 ， 是 因为 这 里 打开 了 音频 Codec 的 上 下 文 ， 
而 最 后 我 们 没有 释放 掉 而 导致 的 内 存 泄 汤 。 试 着 将 代码 恢复 回来 ， 再 进 
行内 存 泄 漏 的 检查 ， 就 没有 问题 了 。 对 于 内 存 泄漏 ， 原 因 有 很 多 种 ， 笔 
者 也 只 是 以 FFmpeg 的 API 为 例 进行 了 讲解 。 由 于 ARC 的 内 存 释 放 机 制 使 
用 的 是 自动 引用 计数 的 方式 ， 所 以 ， 一 旦 存在 循环 引用 ， 就 肯定 会 导致 
内 存 泄漏 。 一 般 情况 下 ， 将 其 中 的 一 个 对 象 中 的 变量 设 为 weak， 不 让 它 
出 现在 保留 周期 中 即 可 解决 问题 。 








13.3 本章 小 结 


本 间 主 要 介绍 了 日 党 工作 中 用 到 的 工具 ， 首 先 介 绍 了 Android 平 台 
下 各 用 的 工具 ， 重 点 介绍 了 ADB 工 具 的 使 用 以 及 Java 层 和 Native 层 内 存 
泄漏 的 检测 ， 当 然 还 有 NDK 工 具 的 使 用 ， 读 者 可 以 利用 NDK 的 工具 方 
便 地 排查 一 些 开发 中 的 问题 。 其 次 ， 介 绍 了 iOS 平 台 下 强大 的 
Instruments 工 具 ， 分 别 从 内 存 、CPU 负 载 等 方面 进行 了 介绍 与 分 析 。 其 
实 某 一 些 工具 根据 工作 场景 的 不 同 ， 本 章 也 并 没有 介绍 得 很 详细 ， 比 如 
ADB 中 的 pm 与 am， 但 是 读者 掌握 了 本 章 的 内 容 之 后 ， 可 以 很 快 地 使 用 
更 多 的 工具 ， 不 论 是 开发 人 员 还 是 测试 人 员 ， 在 工作 中 利用 好 这 些 工 具 
i 希望 大 家 深入 学 习 ， 好 好 理解 并 运用 到 工 








附录 A 通过 Ne10 的 交叉 编译 输入 理解 ndk-build 
A.1 Nel0 简 介 


目前 大 部 分 智能 手机 已 经 配备 了 高 清 摄像 头 、 高 保 真 麦克 风 ， 由 此 
而 带 来 的 声音 类 应 用 与 图 像 类 应 用 越 来 越 普遍 ， 而 本 书 所 讲解 的 就 是 基 
于 移动 平台 的 音 视 频 类 应 用 的 开发 。 但 是 ， 在 处 理 这 些 音 视 频数 据 的 时 
候 ， 单 纯 依靠 现 有 CPU 的 计算 能 力 是 远 远 不 够 的 ， 所 以 对 于 一 个 音 视频 
应 用 来 讲 ， 提 高 性 能 是 永 无 止境 的 。 在 视频 处 理 方面 ， 多 会 使 用 
OpenGL ES 技术 ， 利 用 显卡 的 并 行 计 算 能 力 来 提高 处 理 图 像 或 视频 的 速 
度 ， 但 是 在 音频 处 理 方 面 却 很 少 有 比较 成 熟 的 技术 供 开 发 者 使 用 。 
ARM NEON 技 术 采 用 SIMD 〈 单 指令 ， 多 数据 ) 体系 结构 ， 可 以 有 效 提 
升 多 媒体 和 信号 处 理应 用 程序 的 性 能 ， 从 而 增强 用 户 人 体验。 同时， 
NEON 技 术 与 ARM 处 理 器 紧密 结合 ， 提 供 单 指令 流 和 内 存 的 统一 视图 ， 
从 而 能 够 提供 一 个 具有 更 简单 工具 流 的 开发 平台 。 由 于 目前 市 面 上 的 
Android 设 备 和 iOS 设 备 使 用 的 都 是 ARM 架 构 的 芯片 ， 所 以 在 音 视 频 处 理 
过 程 中 使 用 ARM 提 供 的 NEON 指 令 集 来 加 速 运算 是 一 件 非常 有 意义 的 事 
情 。 但 是 ， 开 发 者 要 从 头 开始 编写 很 多 基础 的 Math 功 能 以 及 信和 号 处 理 的 
FFT、FIR、IIR 等 滤波 器 ， 这 基本 上 是 不 现实 的 事情 ， 所 以 Nel0 应 运 而 
生 。 


Nel0 是 由 ARM 主 导 开 发 的 一 个 开源 软件 库 。 该 库 旨 在 提供 一 系列 
通用 的 、 基 于 ARM NEON 架 构 并 且 经 过 深度 优化 的 函数 集合 。 通 过 调 
用 这 些 库 函 数 ， 可 以 让 软件 开发 人 员 免 于 编写 重复 的 底层 汇编 代码 ， 同 
时 也 能 充分 利用 ARM NEON SIMD 指 令 的 并 行 运算 能 力 。Ne10 的 主要 
目录 结构 包括 : doc( 文 档 ) 、inc《〈 头 文件 目录 ) 、samples (示例 日 
录 ) 、android( 安 日 平 台 下 的 动态 库 )  、common〔 基 础 库 ) 和 
modules 模块 目录 ) 。 部 分 目录 会 在 后 续 章节 中 逐一 进行 介绍 ， 这 里 


























-math 数学 模块 : 主要 包含 矢量 /矩阵 数学 运算 。 


.dsp 数 字 信 和 号 处 理 模 块 : 主要 包含 FFT 快 速 傅 里 叶 变换 ， 以 及 部 分 
FIR/IIR 滤 波 函 数 。 


-imgproc 疼 像 处 理 模块 : 主要 包含 图 像 纵 放 、 旋 转 等 后 处 理 函 数 。 


A.2 编译 和 运行 官方 Demo 
A.2.1 安装 cmake 


Ne10 的 编译 是 基于 cmake 编 译 的 。 首 先 ， 开 发 者 需要 在 开发 环境 中 
安装 cmake， 注 意 一 定 要 安装 命令 行 方 式 的 cmake， 不 要 安装 图 形 化 界 
面 的 cmake。cmake 的 全 称 是 cross platform make， 从 其 全 称 上 可 以 看 出 
它 是 一 个 路 平台 的 编译 工具 。 由 于 各 个 平台 的 编译 环境 与 构建 语法 不 
同 ， 所 以 开发 者 开发 一 个 跨 平 台 的 公共 库 或 者 软件 是 一 件 很 困难 的 事 
情 。 而 cmake 可 以 使 用 统一 的 语法 编译 出 多 个 平台 的 makefile 文 件 或 
project 文 件 ， 再 执行 make 命 令 就 可 以 编译 出 目标 包 。 如 何 安装 cmake 
呢 ? 在 Mac OS X 系 统 下 ， 开 发 者 直接 使 用 brew 进 行 安 装 cmake 即 可 : 





brew install cmake 





A.2.2 编译 NE10 

安装 好 cmake 之 后 ， 就 可 以 编译 Ne10 这 个 库 了 。 首 先进 入 Ne10 的 根 
目录 ， 然 后 进入 doc 目 录 ， 打 开 building.md 文 件 ， 在 该 文件 中 可 以 找到 
对 于 在 Android 平 台 下 编译 NE10 的 帮助 。 编 译 步 骤 如 下 : 


1) 建立 build 目 录 ， 并 进入 这 个 目录 。 





mkdir build && cd build 





2) 将 NDK 目 录 配 置 到 ANDROID_NDK 变 量 中 。 





export ANDROID_NDK=/absolute/path/of/android-ndk 








3) 指定 编译 的 目标 平台 是 armvy7， 当 然 ， 也 可 以 指定 为 aarch64。 





export NE10_ANDROID_TARGET_ARCH=armv7 #Can Also be "aarch64" 





4) 指定 cmake 的 配置 文件 路 径 ， 使 用 cmake 生 成 对 应 平台 的 
makefile 文 件 。 





cmake DCMAKE_ TOOLCHAIN_FILE=../android/android config.cmake .. 





5) 执行 make 指 令 ， 编 译 对 应 平台 下 的 包 。 





make 








make 命 令 运 行 完 毕 后 ， 如 果 没 有 出 现 错 误 日 志 ， 束 代表 Ne10 编 译 
成 功 。 


A.2.3 ”运行 官方 Demo 


开发 者 可 以 进入 build 目 录 下 ， 该 目录 就 是 编译 的 目标 目录 。 该 目录 
下 有 一 个 android 目 录 ， 这 个 android 目 录 下 有 一 个 NE10Demo， 它 就 是 运 
行 在 Android 设 备 上 的 应 用 程序 。 开 发 者 可 以 将 NE10Demo 中 的 jni 目 录 下 
的 libNE10 test_demo.so 取 出 ， 放 到 工程 下 的 libs 中 的 armeabi-v7a 目 录 
下 ， 然 后 将 工程 导入 IDE 中 ， 并 运行 。 


官方 的 这 个 Demo 工 程 是 使 用 WebView 来 展示 界面 的 ， 从 jni 里 的 源 
人 码 中 可 以 看 到 ，Ne10 会 利用 自己 的 单元 测试 用 例 来 测试 Ne10 的 性 能 ， 
并 与 CPU 的 运行 的 速度 做 对 比 。 我 们 可 以 在 Java 层 代码 中 打 一 个 断 点 来 
I ， 默 认 的 测试 函数 是 abs 这 个 函数 ， 测 试 
结果 如 下 : 











{ "name" : "test_abs_case0 1", "time _c" : 11441, "time _ neon" : 1448 },? 
{ "name" : "test_abs_case0 2", "time _c" : 8289, "time_neon" : 1858 }, 

{ "name" :; "test_abs_case0 3", "time _c" : 11193, "time_neon" : 2781 }, 
{ "name" :; "test_abs_case0 4", "time _c" : 13575, "time_neon" : 2229 } 





从 以 上 代码 中 可 以 看 到 ，abs 这 个 函数 利用 neon 加 速 之 后 的 结果 是 
纯 使 用 CPU 计 算 速 度 的 5 倍 以 上 。 如 果 想 得 到 更 多 其 他 函数 的 测试 结 
果 ， 读 者 可 以 自己 去 改动 jni 层 的 测试 用 例 调 用 ， 然 后 使 用 cmake 以 及 
make 指 令 编译 出 so 包 ， 运 行 就 可 以 得 到 结果 了 。 
A.3 通过 Ne10 的 编译 来 看 ndk-build 的 执行 过 程 
A.3.1 如 何 构建 基于 Nel0 的 应 用 


Nel0 的 官方 Demo 运 行 成 功 之 后 ， 如 果 开 发 者 想 开发 基于 Ne10 的 应 











用 ， 那 么 该 如 何 做 呢 ? 依据 之 前 的 开发 经 验 ， 最 简单 的 方式 就 是 获取 
include 文 件 与 静态 库 文 件 ， 然 后 放 入 Native 代 码 中 ， 分 别 在 编译 和 链接 
阶段 找到 这 两 个 文件 就 可 。 具 体 做 法 如 下 。 


先进 入 build 目 录 中 ， 找 到 modules 目 录 下 的 libNE10.a， 这 就 是 我 们 
想 要 的 静态 库 文 件 。 那 头 文 件 在 什么 位 置 呢 ? 就 在 主 目录 下 的 
inc (include) 目录 中 ， 这 个 目录 里 束 有 我 们 编译 阶段 需要 的 涉 文件 。 按 
照 之 前 的 目录 构建 方式 ， 我 们 将 头 文件 和 静态 库 文件 放 入 Native 代 码 
中 ， 再 开始 开发 基于 Ne10 的 应 用 即 可 。 


A.3.2 深入 理解 Ne10 的 交叉 编译 


笔者 曾 在 GitHub 上 就 Ne10 在 Android 平 台 的 编译 和 使 用 与 Ne10 的 作 
者 之 一 Joe Savage 有 过 比较 多 的 交流 。Joe Savage 是 一 个 非常 nice 的 人 ， 
通过 与 他 的 多 次 讨论 ， 笔 者 发 现 了 Nel10 的 更 多 内 部 细节 。 按 照 A.2.2 小 
节 中 的 步骤 将 Nel0 编 译 成 功 之 后 ， 进 入 build 目 录 ， 可 以 看 到 该 目录 下 
有 三 个 比较 重要 的 目录 ， 分 别 是 android 目 录 、samples 目 录 和 modules 目 
录 。 











1.android 目 录 


android 目 录 下 是 编译 好 的 安 昌 平台 下 的 动态 so 库 ， 以 及 编译 过 程 中 
由 cmake 产 生 的 中 间 文 件 。 通 过 A.2.3 节 中 的 描述 ， 将 动态 库 
libNe10_test_demo.so 放 入 官方 Demo 工 程 中 并 运行 ， 可 以 得 到 对 比 测试 
的 结果 。 这 个 动态 库 的 源码 实际 上 是 Ne10 根 目录 中 的 android 目 录 下 jni 
中 的 代码 ， 而 jni 中 的 代码 使 用 的 是 Ne10 根 目录 下 的 test 目 录 下 的 测试 
case。 大 家 可 以 想 一 下 ， 这 个 编译 动态 库 的 过 程 其 实 与 绝 大 多 数 安 早 工 
程 编译 动态 库 的 过 程 是 不 一 样 的 ， 因 为 大 部 分 开发 者 正常 编 译 一 个 安 蛙 
工程 的 动态 库 使 用 的 是 ndk-build 命 令 。 


但 是 Ne10 的 构建 方式 不 是 使 用 ndk-build 这 个 脚本 ， 而 是 使 用 了 更 加 
通用 的 cmake。cmake 是 一 个 跨 平 台 的 构建 工具 ， 用 自己 的 描述 语言 或 
者 语法 可 以 生成 对 应 平台 的 Makefile (make 脚 本 〉 文件 。 开 发 者 不 建议 
在 安 早 平台 的 每 个 项 目 都 这 样 做 ， 因 为 Nel0 项 目 本 身 不 仅 是 安 旨 平台 的 
项 目 ， 而 且 是 所 有 ARM 架 构 的 系统 都 可 以 使 用 的 开源 库 。 所 以 不 同 的 
应 用 场景 选择 不 同 的 解决 方案 ， 而 选择 cmake 是 NE10 的 最 佳 解 决 方案 。 
而 对 于 Android 工 程 的 Native 代 码 的 构建 场景 ， 使 用 ndk-build 才 是 最 佳 解 
决 方案 。 如 果 开 发 者 想 更 改 NE10Demo 的 测试 程序 ， 再 自己 集成 Nel0 之 




















后 的 性 能 测试 或 者 正确 性 测试 (当然 ，Ne10 的 作者 已 经 做 过 了 这 些 测 
试 ， 但 是 ， 由 于 构建 方式 的 不 同 ， 以 及 开发 者 的 工程 可 能 会 有 比较 复杂 
的 业务 逻辑 ， 所 以 自己 做 测试 在 所 难免 ) ， 开 发 者 可 以 修改 Ne10 项 目 日 
录 中 的 android ~ NE10Demo ~jni 目 录 下 的 源码 文件 NE10_test_demo.c， 
然后 到 build 目 录 下 执行 make 命 令 ， 最 后 把 so 文件 拷贝 到 对 应 目录 中 编译 
并 运行 安 卓 程序 。 当 然 ， 如 果 增 加 jni 函 数 也 要 相应 地 在 java 文 件 中 增加 
native 方 法 的 声明 。 以 上 介绍 完了 andorid 目 录 下 的 结构 ， 这 个 日 录 主 要 
是 针对 Android 工 程 编译 的 动态 so 库 ， 开 发 者 可 以 更 改 对 应 的 源码 文 

件 ， 然 后 使 用 so 库 进行 测试 。 


ndk-build 命 令 











ndk-build 命 令 是 一 个 脚本 ， 在 指定 的 NDK-ROOT 下 面 。ndk-build 这 
个 脚本 实际 上 会 检查 工程 当前 Application.mk 文 件 里 的 配置 选项 ， 包 括 
交叉 编译 的 gcc 版 本 、APP-CFLAGS、APP-CPPFLAGS、 是 否 开启 异常 
及 Rtti 等 参数 。 当 然 ， 如 果 没 有 Application.mk 这 个 配置 文件 ，ndk-build 
命令 会 使 用 一 系列 默认 的 配置 。 首 先 ， 要 确定 使 用 的 gcc 版 本 以 及 要 编 
译 的 目标 平台 ， 例 如 ， 我 们 使 用 gcc4.8 编 译 armv7-a 平 台 上 的 包 。 然 后 ， 
ndk-build 才 会 恋 取 Android.mk 里 的 配置 ， 包 括 CFLAGS、LDFLAGS、 源 
码 文件 以 及 include 的 预 编译 mk。 最 后 ， 进 行 编译 和 链接 。 无 论 是 
Application.mk 还 是 Android.mk， 配 置 文件 中 指定 的 CFLAGS、 
LDEFLAGS 这 些 参数 的 默认 值 都 在 NDK 目 录 下 的 哪 一 个 文件 中 指定 呢 ? 
它们 都 存在 于 NDK toolchains 目 录 下 对 应 的 gcc 版 本 目录 中 的 setup.mk 
这 个 文件 中 ， 例 如 ， 当 使 用 的 gcc 厂 本 为 4.9 的 时 候 ，setup.mk 所 在 的 目 
录 为 : $SNDK_ROOT/build/core/toolchains/arm-linux-androideabi-4.9 或 者 
$NDK_ROOT/toolchains/arm-linux-androideabi-4.9。 


由 于 不 同 的 NDK 版 本 所 在 的 位 置 不 同 ， 当 ndk-build 脚 本 被 执行 的 时 
候 ， 可 以 根据 默认 配置 以 及 Android.mk 里 的 配置 构建 出 对 应 的 动态 库 或 
者 静态 库 或 者 二 进 制 的 可 执行 程序 。 


2.samples 日 录 


从 samples 目 录 下 可 以 看 到 一 个 二 进 制 的 可 执行 文件 
NE10_samples_static， 我 们 可 以 将 这 个 文件 放 入 Android 手 机 上 ， 以 命令 
行 工 具 的 方式 运行 它 。 首 先 找 一 台 root 了 的 手机 (只 有 获得 root 权 限 ， 
才能 方便 直接 登入 系统 去 执行 这 个 命令 ) ， 再 利用 adb Push 命令 将 这 个 
二 进 制 文件 推送 到 sdcard 上: 











adb push NE10_ samples_static /mnt/sdcard/NE10_ samples_static 


接着 使 用 adb shell 命 令 登 入 这 台 安 日 设备 : 





adb shell 





然后 将 上 一 步 从 电脑 推 入 的 三 进 制 程序 拷贝 到 /data/ 目 录 下 ， 并 增 
加 执行 权限 : 





su 
cp /mnt/sdcard/NE10_ samples_static /data/ 
cd /data/ 

chmod 777 NE10_samples_static 








最 后 运行 以 下 这 个 二 进 制 命令 : 
./NE10_test_static 


如 果 没 有 错误 ， 应 该 可 以 看 到 官方 二 进 制 Demo 的 测试 结果 。 开 发 
者 可 以 修改 对 应 的 源码 文件 ， 然 后 执行 make 命 令 ， 生 成 新 的 二 进 制 文 
件 ， 将 新 的 二 进 制 文件 放 入 Android 设 备 中 ， 再 做 一 些 快速 测试 。 那 如 
何 修改 二 进 制 命 令 对 应 的 源码 文件 呢 ? 首先 切换 到 Ne10 的 根 目录 下 ， 然 
后 进入 samples 目 录 ， 就 可 以 修改 对 应 的 主 文件 或 者 单元 测试 的 文件 。 
修改 完毕 后 ， 再 回 到 build 目 录 执 行 make 命 令 ， 然 后 找到 最 新 的 二 进 制 
0 0 0 








在 平时 的 开发 过 程 中 ， 开 发 者 并 不 是 总 需要 安 卓 的 开发 环境 
GDE) 才能 测试 Native 层 的 代码 ， 也 可 以 编译 二 进 制 的 可 执行 文件 来 
做 快速 测试 。 秘 诀 在 于 Android.mk 配 置 文件 的 最 后 一 行 ， 如 果 包 含 的 是 
shared library， 束 是 构建 动态 库 ;， 而 包含 的 是 static library， 了 就 是 构建 静 
态 库 。 但 是 ， 如 果 包 含 的 是 execute ”library， 就 是 构建 二 进 制 可 执行 文 
件 。 而 包含 任何 一 个 变量 ， 都 是 一 个 预定 义 存在 于 NDK-ROOT 目 录 下 
的 一 个 文件 ， 路 径 为 : 














$NDK_ROOT/build/core 





因此 如 果 想 用 ndk-build 编 译 一 个 二 进 制程 序 ， 就 在 Android.mk 文 件 
的 最 后 一 行 包含 execute library 束 可 。 


3.modules 目 录 


modules 目 录 中 有 一 个 静态 库 文 件 libNE10.a， 访 文件 就 是 编译 好 的 
armv7-a 平 台 下 的 静态 库 。 开 发 者 可 以 将 这 个 静态 库 作 为 一 个 prebuilt 的 
静态 库 链 接 到 自己 的 程序 中 ， 然 后 直接 执行 hdk-build 命 令 ， 就 可 以 编译 
出 动态 so 库 了 。 但 是 这 里 有 可 能 会 出 现 一 个 编译 失败 的 问题 ， 错 误 如 
下 : 

















ld: error: jni/prebuilt/l1ibNE10.a(NE10 fft_generic float32.c.0) uses 
VFP register arguments, output does not 








根本 原因 在 于 Ne10 默 认 的 编译 选项 里 开启 了 便 浮 点 运算 ， 即 





-mfloat-abi=hard -mfpu=vfp3 








但 是 ，ndk-build 这 个 脚本 使 用 的 是 gcc 版 本 对 应 的 setup.mk 文 件 里 的 
纺 泽 选项 和 链接 选项 ， 而 setup.mk 文 件 中 默认 的 选项 使 用 的 是 如 下 指 
和 





-mfloat-abi=softfp -mfpu=vfpv3-d16 





因此 ， 使 用 默认 的 编译 选项 是 不 对 的 ， 所 以 需要 在 Application.mk 
里 重新 指定 编译 选项 和 链接 选项 来 覆盖 掉 默 认 的 选项 配置 : 





APP_CPPFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat- 
abi=hard 

-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 
APP_CFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat- 


abi=hard 
-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 
APP_LDFLAGS := -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 
-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 


二 一 


而 使 用 ndk-build 脚 本 编译 Native 代 码 时 ， 编 译 选 项 和 链接 选项 如 何 
查看 呢 ? 开发 者 仅 需 在 使 用 ndk-build 的 时 候 在 后 面 加 上 V=1 就 可 以 看 到 
编译 选项 和 链接 选项 ， 如 下 : 





ndk-build V=1 





执行 以 上 这 个 命令 后 ， 束 可 以 但 看 编译 选项 和 链接 选项 是 人 否 是 我 们 
更 改 之 后 的 选项 了 。 
4. 软 浮 点 和 硬 浮 点 

上 面 我 们 曾 说 过 Ne10 的 编译 是 使 用 cmake 工 具 来 编译 的 ， 所 以 我 们 


必须 正确 安装 cmake。 而 在 Ne10 的 默认 编译 选项 里 包含 了 对 浮上 扣 数 运算 
的 选项 配置 





-mfloat-abi=hard -mfpu=vfp3 





这 个 编译 选项 是 指 什 么 ”其 实 是 这 样子 的 ， 在 gcc 的 编译 选项 中 ， 
mfloat-abi 参 数 可 选 值 有 三 个 ， 分 别 是 soft、softfp 和 hard， 解 释 如 下 。 


_ soft 是 指 所 有 浮 点 运算 全 部 在 软件 层 实现 ， 效率 不 高 ， 适 合 早期 没 
有 浮 点 计算 单元 的 ARM 处 理 器 。 


softfp 是 armel 的 默认 设置 ， 它 将 浮 点 计算 交 给 FPU 人 处理 ， 但 函数 参 
数 的 传递 使 用 通用 的 整 型 寄存 器 而 不 是 FPU 寄 存 器 。 

hard 则 使 用 FPU 序 点 寄存 器 将 函数 参数 传递 给 FPU 处 理 。 

需要 注意 的 是 ， 在 兼容 性 方面 ，soft 模 式 与 后 两 者 是 兼容 的 ， 但 


softfp 和 hard 两 种 模式 是 不 兼容 的 。 默 认 情 况 下 ， 在 Application.mk 里 会 
有 如 下 配置 : 











APP_ABI := armeabi-v7a 
NDK_TOOLCHAIN_VERSION = 4.9 





配置 会 使 用 NDK 中 4.9 版 本 的 gcc 编 译 armv7-a 平 台 下 的 包 。 当 直接 使 
用 Ne10 的 静态 库 进行 链接 的 时 候 ， 和 链接 阶段 束 会 出 现 错 误 : 








ld: error: jni/prebuilt/l1ibNE10.a(NE10 fft_generic_float32.c,.0) uses 
VFP register arguments, output does not 








这 里 就 是 libNE10.a 这 个 静态 库 文 件 在 编译 阶段 使 用 的 编译 选项 中 开 
启 了 硬 浮 点 运算 ， 而 现在 使 用 ndk-build 脚 本 进行 构建 的 时 候 使 用 的 是 软 
浮 点 ， 链 接 过 到 了 不 同 的 输入 文件 类 型 就 报 送 上 述 错 误 。 要 想 解 决 这 个 
问题 ， 可 以 将 APP_ABI 配 置 成 为 armeabi-v7a-hard: 





APP_ABI := armeabi-v7a-hard 





这 样 gcc 在 寻找 编译 选项 (setup.mk) 的 时 候 就 会 寻找 硬 浮 点 ， 
setup.mk 文 件 配置 如 下 : 





ifeq ($(TARGET_ARCH_ABI),armeabi-v7a) 
TARGET_CFLAGS += -mfloat-abi=softfp 
else 
TARGET_CFLAGS += -mhard-float \ 
-D_NDK_MATH_NO_SOFTFP=1 
TARGET_LDFLAGS += -Wl1,--no-warn-mismatch \ 
-lm_hard 
endif 





在 最 新 版 本 中 ，NDK 已 经 不 支持 armeabi-v7a-hard 的 模式 ， 所 以 我 
们 需要 配置 编译 选 型 和 链接 选项 ， 配 置 编译 选项 里 的 将 浮 点 预算 使 用 硬 
浮 点 的 fpu 是 为 了 确保 正确 性 ， 链 接 选项 里 的 -W1，--no-warn-mismatch 是 
为 了 告诉 链接 器 忽略 警告 ， 确 保 链 接 成 功 ， 不 要 再 检查 输入 文件 的 格式 
不 同 。 所 以 最 终 的 Application.mk 如 下 : 








APP_ABI := armeabi-vria 


APP_CPPFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat- 
abi=hard 

-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 
APP_CFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat- 
abi=hard 


-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 
APP_LDFLAGS := -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 

-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 
NDK_TOOLCHAIN_VERSION = 4.9 








运行 hdk-build 脚 本 ， 执 行 完 毕 后 大 没有 错误 ， 束 完全 编 详 好 了 这 个 
动态 库 。 有 的 读者 可 能 会 问 ， 是 如 何 找到 这 些 参数 的 呢 ?” 其 实 ， 前 面 所 











讲解 的 三 个 目录 下 都 有 一 个 CMakeFiles 目 录 ， 每 个 目录 下 会 有 一 个 
XXXXX.dir 目 录 ， 这 个 目录 里 有 一 个 flags.make 及 link.txt， 这 两 个 文件 中 
就 是 编译 和 链接 命令 及 其 携带 的 参数 。cmake 是 根据 自己 的 脚本 文件 中 
的 配置 生成 这 些 参数 ， 但 在 这 里 找到 的 编译 选项 以 及 链接 选项 才 是 最 终 
的 选项 ， 就 像 使 用 ndk-build 脚 本 编译 ， 我 们 写 上 V=1 才 可 以 看 到 中 间 过 
程 编 译 和 链接 的 选项 。 


还 有 一 种 方法 就 是 配置 Nel0 的 编译 选项 ， 使 用 软 浮 点 ， 束 需要 我 们 
在 执行 cmake 的 时 候 融 上 参数 ， 即 








cmake -DNE10_ARM_HARD_FLOAT=OFF 
-DCMAKE_TOOLCHAIN_FILE = ../android/android config.cmake .. 





这 时 编译 出 来 的 静态 库 就 是 使 用 软 浮 点 运算 的 了 ， 但 是 Ne10 的 作者 
不 推荐 这 样 做 ， 因 为 这 样 一 方面 会 降低 效率 ， 另 一 方面 有 一 些 汇编 文件 
里 的 代码 可 能 依赖 于 便 浮 点 的 运算 ， 这 有 可 能 会 造成 错误 。 
A.4 Nel0 提 供 的 Math 函 数列 表 

Ne10 提 供 的 Math 函 数列 表 如 下 : 


1) 浮 点 数组 加 ( 减 、 乘 、 除 ) 一 个 float 常 量 数值 放 入 目标 浮 点 数 
组 中 。 


2) 问 量 数组 〈 二 维 、 三 维 、 四 维 ) 加 ( 减 、 乘 、 除 ) 一 个 回 量 禹 
量 放 入 目标 癌 量 数组 中 。 


3) 浮 点 数组 加 《〈 减 、 乘 、 除 ) 男 外 一 个 浮 点 数组 (按照 相同 的 
index 进 行 运算 ) 放 入 目标 浮 点 数组 中 。 


4) 回 量 数 组 〈 二 维 、 三 维 、 四 维 ) 加 《〈 减 、 乘 、 除 ) 另外 一 个 加 
量 数组 (按照 相同 index 进 行 运算 ) 放 入 目标 向 量 数组 中 。 


5) 矩阵 (二 维 、 三 维 、 四 维 ) 与 矩阵 的 加 、 减 、 乘 、 除 。 
6) 窜 阵 与 向 量 相 乘 。 


7) 浮 点 数组 都 设置 为 一 个 常量 。 


8) 浮 点 数组 绝对 值 。 


9) 一 个 种 量 减 去 一 个 浮 点 数组 中 的 每 一 个 元 素 放 置 到 目标 浮 点 数 
组 中 。 


10) 癌 量 常量 减 去 一 个 向 量 数组 中 的 每 一 个 元 系 放 置 到 目标 癌 量 数 














组 中 


11) 浮上 数组 乘 以 各 量 再 加 上 为 外 一 个 浮 点 数组 (按照 index 进 
行 ) 放 入 目标 浮 点 数组 中 。 


12) 同 量 数组 乘 以 向 量 和 常量 再 加 上 男 外 一 个 向 量 数组 (按照 index 
进行 ) 放 入 目标 向 量 数组 中 。 

13) 浮 点 数组 乘 以 力 外 一 个 浮上 数组 (按照 index 相 习 ) 再 加 上 一 
个 浮 点 常量 放 入 目标 浮 扣 数 组 中 。 


14) 问 量 数组 乘 以 妃 外 一 个 同 量 数组 《按照 mdex 相 乘 ) 再 加 上 一 
个 同 量 常量 放 入 目标 向 量 数组 中 。 


15) 矩阵 的 转 置 、 单 位 算 阵 运算 等 数学 运算 。 
A.5 ”FFT 性 能 测试 


在 不 同 的 Android 平 台 手 机 上 做 测试 ，FFT 的 结果 要 快 3 倍 左 右 ， 有 
的 甚至 能 达到 5 倍 ， 所 以 效果 还 是 很 明显 的 。 测 试 样本 的 时 间 长 度 为 
10s， 采 样 频率 为 44100Hz， 双 声 道 的 的 PCM 先 做 FFT， 比 较 结果 是 侣 三 
MayerFFT 一 致 〈 平 方 后 相 加 进行 浮 点 数 比 较 ， 相 差 在 0.0001 以 内 ) ， 然 
后 做 逆 FFT， 听 声音 是 否 正常 ， 如 果 没 有 问题 ， 代 表 结 果 是 正确 的 。 最 
终结 果 的 正确 性 与 性 能 对 比 结果 如 表 A-1 所 示 。 


表 A-l 
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附录 B 编码 器 的 使 用 细节 

B.1 AAC 编 码 器 的 使 用 细节 

音频 的 编码 方式 有 很 多 种 ， 目 前 最 为 流行 的 就 是 AAC 的 编码 格式 。 
这 种 编码 格式 可 以 在 中 低 码 率 的 限制 下 编码 出 较 高 质量 的 音频 流 。 目 
前 ，AAC 的 规格 〈Profile) 有 以 下 三 种 。 

:LC-AAC 编 码 规格 。 

.HE-AAC v1 编码 规格 。 

.HE-AAC v2 编码 规格 。 


这 三 种 规格 的 关系 如 图 B-1 所 示 。 
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图 B-l 


LC-AAC 的 Profile 是 最 基础 的 AAC 的 编码 规格 。 另 外 两 种 较为 高 级 
的 编码 规格 中 都 带 有 HE 字样 ，HE 的 全 称 是 High Efficiency， 翻 译 为 中 文 


就 是 高 效 性 的 意思 。 


HE-AAC v1 (又 称 AACPlusV1，SBR) 使 用 容器 的 方法 实现 了 
AAC (LC) 和 SBR 技 术 ，SBR 代 表 Spectral Band Replication (频段 复 


制 ) 技术 。 音 乐 的 主要 频谱 虽然 集中 在 低频 段 ， 但 是 高 频 部 分 也 是 很 重 
要 的 ， 因 为 高 频段 决定 了 整个 音乐 的 音质 。 对 全 频段 编码 ， 重 为 了 保护 
高 频段 ， 就 会 造成 低频 段 纺 码 过 细 而 导致 文件 巨大 ;在 保存 了 低频 的 主 
要 成 分 而 失去 高 频 成 分 ， 就 会 形 失 音质 。 这 也 是 LC 编 码 规格 的 最 大 问 

题 ， 所 以 SBR 技 术 应 运 而 生 。SBR 把 频谱 切割 开 来 ， 低 频 单独 编码 以 保 
留 主要 的 频谱 部 分 ， 高 频 单独 放大 编码 以 保留 言 质 ， 这 样 就 能 保证 在 减 
小 文件 大 小 的 情况 下 还 保存 了 首 质 ， 完 美化 解 了 这 一 矛盾 。 


HE-AAC v2 编码 规格 也 使 用 容器 的 方法 包含 HE-AAC v1 和 PS 技术 。 
PS 全 称 为 parametric stereo (参数 立体 声 ) ， 而 一 个 立体 声 文 件 的 大 小 是 
一 个 单 声 道 文件 的 两 倍 。 但 是 ， 两 个 声 道 的 声音 存在 某 种 相似 性 ， 根 据 
香农 信息 业 编 码 定 理 ， 相 关 性 应 该 被 去 掉 才 能 减 小 文件 大 小 。 所 以 PS 技 
术 存 储 了 一 个 声 道 的 全 部 信息 ， 然 后 ， 花 很 少 的 字 节 用 参数 描述 另 一 个 
声 道 和 它 不 同 的 地 方 。 这 样 就 去 除了 两 个 声 道 中 的 宛 余 信息 ， 在 音质 损 
失 很 小 的 情况 下 ， 进 一 步 减 小 了 文件 大 小 。 


LC-AAC、HE-AAC v1、HE-AAC v2 之 间 比 特 率 和 主观 质量 的 关系 
是 : 在 低 码 率 的 情况 下 ，HE-AAC v1、HE-AAC v2 编码 后 的 音质 要 明显 
好 于 LC-AAC 的 。 


在 FFmpeg 文 档 中 设置 AAC 编 码 器 的 Profile 有 如 下 描述 : 文 持 LC- 
AAC 这 个 Profile 的 编码 器 有 1libfdk_aac、1libfaac、1libvo_aac 以 及 aac 实 现 ， 
但 是 文 持 HE-AAC 以 及 HE-AAC v2 的 仅 有 libfdk_aac 与 libaacplus。 所 以 开 
发 者 要 想 在 FFmpeg 中 使 用 Profile 为 HE-AAC 以 上 的 AAC 编 码 器 ， 只 能 使 
用 libfdk_aac 或 者 libaacplus; 否则 ， 当 调用 FFmpeg 的 API 打 开 编 码 堪 的 
时 候 ， 会 收 到 *invalid AAC profile.” 的 错误 返回 值 。 


以 代码 的 方式 调用 FFmpeg 编 码 AAC 的 Profile 设 置 如 下 : 





























AVCodecContext *encoder_ctx; 

encoder_ctx->codec_id = AV_CODEC_ID_AAC; 
encoder_ctx->sample_fmt = AV_SAMPLE_FMT_S16; 
encoder_ctx->profile = FF_PROFILE AAC_HE; 

encoder = avcodec find encoder_ by_name("libfdk aac"); 
avcodec_ open2(encoder_ctx, encoder, NULL); 








使 用 fftmpeg 的 命令 行 工具 正常 编码 一 个 AAC 格 式 的 文件 命令 如 下 : 





ffmpeg -i source.wav -acodec libfdk aac -b:a 64K target.m4a; 


述 命令 默认 使 用 的 编码 规格 就 是 LC 的 编码 规格 。 那 如 何在 命 
Re 的 Profile 设 置 呢 ? 命令 如 下 : 





ffmpeg -i source.wav 
-acodec libfdk_aac -profile:a aac_ he -b:a 64K target.m4a; 





述 命令 使 用 libfdk_aac 编 码 右 ， 使 用 HE-AAC V1 的 编码 规格 将 
source. 为 码 率 是 64K 的 target.m4a 文 件 。 





ffmpeg -i source.wav 
-acodec libfdk aac -profile:a aac he v2 -b:a 48K target.m4a; 





述 命令 使 用 libfdk_aac 编 码 右 ， 使 用 HE-AAC V2 的 编码 规格 将 
source. 0 为 码 率 是 48K 的 target.m4a 文 件 。 


将 编码 的 target.m4a 文 件 导 入 Praat 软 件 ， 用 频谱 图 来 分 析 首 质 。 
面 通过 码 率 为 48K， 分 别 以 LC、HE-AAC 以 及 HE-AAC2 这 三 各 不 向 的 编 
人 码 规格 编码 音频 文件 ， 然 后 导入 Praat 软 件 ， 通 过 频 域 图 对 比 来 分 析 首 质 
的 损失 ， 如 图 B-2 所 示 。 








图 B-2 是 原始 声音 的 语 谱 图 ， 原 始 声 音 为 44100 的 采样 频率 ， 双 声 道 
的 声音 。 根 据 奈 奎 斯 特 采 样 定律 ， 频 带 分 布 到 22050， 所 以 全 频带 分 布 
的 截止 频率 就 是 22050。 对 于 这 个 声音 ， 我 们 使 用 比特 率 为 48Kbps， 再 
分 别 使 用 LC、HE-AAC 以 及 HE-AAC v2 来 编码 ， 然 后 观察 编码 之 后 的 频 
带 分 布 。LC 编 码 规格 下 的 语 谱 图 如 图 B-3 所 示 。 
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图 B-3 
图 B-3 所 示 的 就 是 LC Profile 编 码 之 后 的 语 谱 图 ， 从 图 中 可 以 看 到 它 














的 频带 分 布 到 了 10kHz 就 被 截断 ， 对 于 高 频 部 分 影响 比较 大 。 接 着 看 以 
HE-AAC 编 码 规格 编码 出 来 的 文件 的 语 谱 图 ， 如 图 B-4 所 示 。 


从 图 B-4 中 可 以 看 到 ，HE-AAC 编 码 出 来 的 文件 效果 要 比 LC 的 好 ， 
因为 它 的 截止 频率 约 到 了 16kHz 以 上 。 接 着 来 看 以 HE-AAC v2 编码 规格 
编码 出 来 的 文件 的 语 谱 图 ， 如 图 B-5 所 示 。 


从 图 B-5 可 以 看 到 ，HE-AAC V2 编码 出 来 的 文件 效果 最 好 ， 因 为 几 
乎 达到 了 全 频带 履 兰 。 


我 们 以 FDK_AAC 为 例 来 看 看 各 个 Profile 下 推荐 的 码 率 跟 采样 率 以 
及 声 道 数 的 关系 ， 如 图 B-6 所 示 。 


































































































Audio Object Type Bit es Supported i Rates Ps vo Rate pi 
人 8000 - 11999 |22.05, 24.00 24.00 2 
{29] HE-AAC v2 12000 - 17999 |32.00 32.00 2 
{AAC LC + SBA + PS) 18000 - 39999 |32.00, 44.10, 48.00 44.10 2 

40000 - 56000 |32.00, 44.10, 48.00 48.00 2 
8000 -11999 |22.05, 24.00 24.00 上. 
12000-17999 |32.00 32.00 1 
18000 - 39999 |32.00, 44.10, 48.00 44.10 1 
GLC SBA) 40000-56000 |3200,4410,46.00 4800 E 
16000 - 27999 |32.00, 44.10, 48.00 32.00 2 
28000 - 63999 |32.00, 44.10, 48.00 44.10 2 
64000 - 128000 |32.00, 44.10, 48.00 48.00 2 
64000 - 69999 |32.00, 44.10, 48.00 32.00 |5,5.1 
{5] HE-AAC 70000 - 159999 |32.00, 44.10, 48.00 44.10 5.5.1 
{AAC LC + SBA) 160000 - 245999 |32.00, 44.10, 48.00 48.00 5 
160000 - 265999 |32.00, 44.10, 48.00 48.00 5.1 
8000 - 15999 |11.025, 12.00, 16.00 12.00 1 
16000 - 23999 ”|16.00 16.00 1 
A 24000 - 31999 ”16.00, 22.05, 24.00 24.00 1 
32000 - 55999 ”|32.00 32.00 1 
56000 - 160000 |32.00, 44.10, 48.00 44.10 1 
160001 - 288000 |48.00 48.00 1 
16000 - 23999 “| 11.025, 12.00, 16.00 12.00 2 
24000 - 31999 | 16.00 16.00 2 
32000 - 39999 |16.00, 22.05, 24.00 22.05 2 
[2] AAC LC 40000 - 95999 |32.00 32.00 2 
96000 - 111999 |32.00, 44.10, 48.00 32.00 E 
112000 - 320001 |32.00, 44.10, 48.00 44.10 2 
320002 - 576000 48.00 48.00 2 
160000 - 239999 32.00 32.00 5.5.1 
[2] AAC LC 240000 - 279999 |32.00, 44.10, 48.00 32.00 5,5.1 
280000 - 800000 |32.00, 44.10, 48.00 44.10 5,5.1 








图 B-6 
AAC 编 码 器 的 编码 规格 至 此 就 讲解 
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毕 了 。 对 于 解码 端 来 讲 ，LC 


Profile 古 兼容 性 最 好 的 编码 规格 。 读 者 可 以 按照 自己 的 应 用 场景 去 设置 





适合 的 码 率 与 编码 规格 。 
B.2 ”FFmpeg 中 使 用 libx264 的 码 率 控制 


libx264 是 一 个 H.264/MPEG4  AVC 编 码 器 ， 对 于 普通 用 户 ， 通 常 有 
两 种 码 率 控 制 模 式 : crf 模 式 和 ABR 模式 。 码 率 控 制 就 是 一 种 决定 为 每 个 
视频 帧 分 配 多 少 比特 数 的 方法 ， 它 将 决定 文件 大 小 和 质量 的 分 配 。 


B.2.1 cf 模式 


crf 的 全 称 是 Constant Rate Factor， 这 种 模式 可 以 允许 在 输出 的 文件 
不 太 重 要 的 时 候 ， 而 达到 特定 的 视频 质量 。 这 种 编码 模式 的 优点 是 ， 提 
供 了 最 大 的 压缩 效率 ， 每 一 慎 可 以 按照 要 求 的 视频 质量 去 决定 它 需要 的 
比特 数 ， 这 种 编码 模式 的 缺点 是 ， 不 能 计算 规定 时 间 长 度 的 视频 文件 的 
具体 大 小 ， 或 者 准确 控制 输出 码 率 。 下 面 我 们 来 看 具体 的 使 用 步骤 。 


1. 选 择 一 个 crf 值 


crf 值 是 描述 视频 质量 的 一 个 量化 值 ， 取 值 范围 为 0 一 51， 其 中 0 为 无 
损 模式 ，23 为 默认 值 ，51 代 表 最 差 质 量 。 该 数字 越 小 ， 图 像 质量 越 好 。 
从 主观 上 讲 ，18 一 28 是 一 个 合理 的 范围 。18 往 往 被 认为 从 视觉 上 看 是 无 
损 的 ， 它 的 输出 视频 与 输入 视频 几乎 一 样 或 者 相差 无 几 。 但 从 技术 角度 
来 讲 ， 它 依然 是 有 损 压 缩 。 知 crf 值 加 6， 输 出 码 率 大 概 减 少 一 半 ; 知 crf 
值 减 6， 输 出 码 率 翻 倍 。 通 常 ， 在 保证 可 接受 视频 质量 的 前 提 下 选择 一 
个 最 大 的 af 值 ， 如 果 输 出 视频 质量 很 好 ， 可 以 笠 试 一 个 更 大 的 值 来 降低 
视频 文件 的 大 小 ;， 如果 视频 质量 看 起 来 很 糟 ， 可 以 尝试 一 个 小 一 点 的 
值 ， 以 提升 视频 质量 ， 读 者 可 以 按照 自己 的 应 用 场景 来 设置 这 个 值 。 


2. 选 择 一 个 预 设 


预 设 (preset) 是 es 这 个 集合 使 得 编码 噩 能 够 在 
编码 速度 和 压缩 率 之 间 做 出 权衡 。 同 等 视频 质量 下 ， 一 个 编码 速度 稍 慢 
的 预 设 会 提供 更 高 的 压缩 率 ( 必 促 率 总 以 文件 大 小 末 衡 量 芍 ) 换 言 
pt 要 想得到 一 个 指定 大 小 的 文件 或 者 采用 恒定 比特 率 编码 模式 ， 开发 
者 可 以 采用 一 个 较 慢 的 预 设 来 获得 更 好 的 质量 。 如 采 不 需要 考虑 时 间 ， 
X264 建 议 开发 者 使 用 最 慢 的 预 设 。 目 前 ，x264 中 所 有 的 预 设 按照 编码 速 
度 降 序 排列 为 : ultrafast、superfast、veryfast、faster、fast、medium、 
slow、Sslower、veryslow、Pplacebo， 默 认 预 设 为 medium。 开 发 者 可 以 使 
用 --preset 来 查看 预 设 列表 ， 也 可 以 通过 x264--fullhelp 来 查看 预 设 所 采用 
的 参数 配置 。 


开发 者 还 可 以 基于 输入 内 容 的 独特 性 通过 使 用 --tune 来 改变 参数 设 











置 。 当 前 的 tune 包 括 flm、animation、grain、stilljimage、psnr、ssim、 
fastdecode、zerolantency。 假 设 你 的 输入 内 容 为 动画 ， 则 可 以 使 用 
animation， 或 者 你 想 保留 纹理 ， 束 用 grain。 如 果 你 不 确定 使 用 哪个 选项 
或 者 你 的 输入 与 所 有 的 tane 皆 不 匹配 ， 则 可 以 忽略 --tune 选 项 。 你 可 以 使 
用 --tune 来 查看 tune 列 表 ， 也 可 以 通过 x264--fullhelp 来 查看 tune 所 采用 的 
参数 配置 。 


最 后 一 个 可 选 的 参数 是 --profile， 这 个 参数 决定 编码 器 到 底 使 用 哪 
一 种 H.264 的 编码 规格 〈profile) 来 编码 视频 ， 当 前 所 有 profile 包 括 
baseline、main、high、high10、high422、high444， 注 意 使 用 --profile 选 
项 和 无 损 编码 是 不 兼容 的 。 


如 下 所 示 ， 作 为 一 种 快捷 方式 ， 你 可 以 通过 不 声明 preset 和 tune 的 内 
容 来 让 ffmpeg 罗 列 所 有 可 能 的 内 部 preset 和 tune， 如 下 : 











ffmpeg -i Input,flv -c:v libx264 -preset -tune output .mp4 





执行 上 述 指令 ， 可 以 得 到 如 下 结 





[libx264 @ 0x7f9ff8000600] Error setting preset/tune -tune/(null). 

[libx264 @ 0x7f9ff8000600] Possible presets: ultrafast Superfast veryfast 
faster fast medium slow slower 
veryslow placebo 

[libx264 @ 0x7f9ff8000600] Possible tunes: film animation grain stillimage Fr 

ssim fastdecode zerolatency 





3. 使 用 你 的 预 设 


一 旦 确定 了 预 设 ， 开 发 者 就 将 这 个 预 设 设置 给 编码 器 ， 以 便 让 编码 
器 按照 我 们 的 预 设 编码 对 应 的 视频 流 。 接 下 来 将 使 用 x264 编 码 一 个 视 
频 ， 我 们 使 用 一 个 比 普 通 预 设 稍 慢 的 预 设 ， 这 样 可 以 得 到 比 默认 设置 稍 
好 一 点 的 视频 质量 。 指 令 如 下 : 





ffmpeg -i input,flv -c:v libx264 -preset Slow -crf 22 -c:a copy output ,mp4 





在 上 述 指令 中 ， 使 用 编码 速度 为 Sow、crf 值 为 22 的 预 设 编码 视频 文 
! 音频 流 不 做 重新 编码 ， 直 接 重 新 Mux 到 新 的 输出 视频 
Xs 


B.2.2 ABR 模式 


ABR 模式 更 注重 码 率 的 控制 ， 适 合 在 一 段 时 间 内 生成 固定 大 小 的 视 
频 ， 而 不 太 注 重视 频 质量 的 场景 。 假 如 输入 的 视频 时 长 是 5 分 钟 〈300 
秒 ) ， 要 求 转 码 后 输出 文件 的 大 小 为 25MB， 比 特 率 的 计算 公式 为 文件 
大 小 除 以 时 长 ， 所 以 计算 出 比特 率 如 下 : 





25MB * 1024 * 8 / 300s = 683Kbps 





整体 文件 的 比特 率 为 683Kbps， 如 果 要 得 到 视频 流 的 比特 率 ， 则 需 
要 使 用 整体 文件 的 比特 率 减 去 音频 流 的 比特 率 。 音 频 的 比特 率 计 算 如 
下 : 





683kbps - 128kbps( 音 频 比 特 率 ) = 555kbps 





根据 上 述 计算 可 以 得 到 视频 流 的 比特 率 为 555Kbps， 然 后 使 用 命令 
行 工具 ffmpeg 进 行 转 码 ， 命 令 如 下 : 





ffmpeg -i Input,flv -c:v libx264 -preset medium -b:v 555kK 
-c:a libfdkaac -b:a 128k -f mp4 output.mp4 





ABR 编码 模式 提供 了 东 种 “运行 均值 ?的 目标 ， 终 极目 标 是 最 终 文 件 
大 小 匹配 这 个 “全 局 平均 数字。 因此 ， 如 果 编 码 器 遇 到 大 量 码 率 开 销 非 
第 小 的 黑 帧 ， 它 将 以 低 于 要 求 的 比特 率 编 码 。 但 是 ， 在 接 下 来 的 几 秘 
内 ， 非 黑 帧 它 将 以 高 质量 的 编码 方式 使 码 率 回归 均值 。 另 外 ， 可 以 
与 “max bit rate” 配 合 使 用 来 防止 码 率 的 流动。 


开发 者 可 以 使 用 -x264opts 参 数 来 重 写 预 设 或 者 使 用 libx264 的 私有 选 
项 ， 比 如 设置 关键 帧 的 指令 如 下 : 














ffmpeg -i input.flv -c:v libx264 
-X264-params keyint=30:min-keyint=30:no-scenecut=1 
-acodec copy -f mp4 output ,mp4 





上 述 指令 设置 关键 帧 间隔 为 30 帧 一 个 关键 帧 ， 接 下 来 设置 编码 器 在 
编码 过 程 中 不 适用 B 帧 ， 指 令 如 下 : 





ffmpeg -i input.flv -c:v libx264 
-X264-params keyint=30:min-keyint=30:no-scenecut=1:bframes=0 
-acodec copy -f mp4 output ,mp4 











还 有 一 种 编码 模式 是 大 家 经 党 提 及 的 ， 即 CBR 编 码 模式 ， 全 称 是 
Constant Bit Rate。 事 实 上 ， 根 本 就 没有 CBR 这 种 模式 ， 但 是 开发 者 可 以 
通过 补充 ABR 参数 “模拟 ”一 个 恒定 比特 率 设置 ， 比 如 : 





ffmpeg -i input,flv -c:v libx264 -b:v S500Kk 
-minrate 500k -maxrate 500k -bufsize 1500k output.mp4 








在 上 述 代 码 中 ，-bufsize 是 一 个 “ 码 率 控 制 缓冲 区 ”， 它 会 在 每 一 个 有 
用 的 1500k 视 频数 据 内 强制 你 所 要 求 的 均值 〈 此 处 为 4000k) ， 所 以 我 们 
会 认为 接收 端 /终端 播放 堪 会 缓冲 那么 多 的 数据 ， 因 此 在 这 个 数据 内 部 
波动 是 没有 问题 的 。 当 然 ， 如 果 只 有 黑 帧 或 者 空白 帧 ， 它 所 花费 的 比特 
率 将 少 于 需求 的 比特 率 。 


还 有 一 种 经 常 使 用 的 最 大 比特 率 的 crf 模 式 ， 它 是 通过 声明 -crf 和 - 
maxrate 参 数 来 设置 最 大 比特 率 的 ， 比 如: 








ffmpeg -I input.flv -CIV 1ibx264 -crf 20 -maxrate 600Kk 
bufsize 1800k output.mp4 





这 会 有 效 地 将 crf 值 锁定 在 20， 但 是 ， 如 果 输 出 码 率 超 过 600Kbps， 
这 种 情况 下 编码 器 会 将 质量 降 到 低 于 crf 20。libx264 中 还 有 一 种 对 于 延 
迟 的 设置 ， 即 -tune ”zerolatency， 这 个 设置 可 以 有 效 降低 编码 的 延 人 运输 
出 ， 在 直播 以 及 VOIP 场 景 中 是 必须 设置 的 。 


最 后 一 点 要 考 上 处 的 就 是 兼容 性 问题 。 如 果 想 让 你 的 视频 最 大 化 和 日 
标 播放 设备 兼容 (比如 老 版 本 的 ios 或 者 所 有 的 Android 设 备 ) ， 那 么 可 
以 这 做 : -profile: Vv ”baseline 会 关闭 很 多 高 级 特性 ， 并 提供 很 好 的 兼容 
性 。 常 用 的 编码 规格 还 有 Main 和 High， 与 AAC 的 编码 规格 类 似 ， 规 格 
越 高 ， 兼 容 性 越 震 ， 同 时 在 更 低 码 率 下 编码 出 来 的 视频 质量 会 更 高 。 


下 面 看 看 在 代码 层面 如 何 调 用 FFmpeg 的 API 去 设置 libx264 的 预 设 以 
及 参数 ， 代 码 如 下 : 











AVCodecContext* pCodecCtx; 


pCodecCtx->max_b_frames = 0; 





上 述 代码 表明 是 否 使 用 b 帧 ， 设 置 为 0， 代 表 不 使 用 B 帧 ;设置 为 3， 
代表 1 个 gop 之 内 使 用 3 个 B 帧 。 





av_opt_set(pCcodecCtx->priv_data "preset", "superfast", 0); 
av_opt_set(pCodecCtx->priv_data, "crf", "20", AV_OPT_SEARCH_CHILDREN); 





上 述 代码 相当 于 命令 行 模式 下 的 设置 预 设 和 crf。 





pCodecctx->flags |= CODEC_ FLAG QSCALE; 
pCodecctx->qmin = 10; 
pCodecctx->qmax = 30; 





上 述 代码 利用 qscale 参 数 来 设置 视频 质量 ，qscale 是 以 <q> 质 量 为 基 
础 的 VBR 编 码 模式 ， 取 值 范 围 为 0.01 一 255， 值 越 小 ， 质 量 越 好 ， 即 - 
qscale 4 和 -qscale 6 比较 的 话 ，4 的 质量 比 6 的 好 。 该 参数 使 用 次 数 较 多 ， 
实际 使 用 时 发 现 ，qscale 是 一 个 固定 量化 因子 ， 设 置 qscale 之 后 ， 前 面 设 
置 的 -b 就 无 效 了 ， 而 是 自动 调整 了 比特 率 。-qmin q 表 示 最 小 视频 量化 标 
度 (VBR) 设 定 最 小 质量 ， 与 -qmax 〈 设 定 最 大 质量 ) 共用 ，-qmax q 表 
ee CVBR) ， 使 用 该 参数 ， 束 可 以 不 使 用 qscale 参 


























附录 C ”视频 的 表示 与 编码 


真正 的 高 手 是 不 会 因为 语言 的 限制 (C 语 言 中 没有 类 、 接 口 、 继 承 
等 特性 ) 而 写 出 一 个 不 可 维护 的 系统 ， 而 是 会 依据 所 使 用 语言 的 目 身 特 
性 去 设计 并 实现 出 一 个 可 扩展 性 与 可 维护 性 良好 的 系统 。 所 以 语言 不 重 
要 ， 对 编程 思想 的 认识 才 是 最 重要 的 。 本 附录 会 和 读者 分 享 视 频 帧 表示 
格式 的 演进 以 及 编码 费 是 如 何 工作 的 。 


C.1 视频 帧 的 表示 格式 
如 琳 一 张 图 片 使 用 RGBA 格 式 来 表示 ， 并 且 每 一 个 通道 都 使 用 一 个 


字 节 来 作为 它 的 精度 表示 ， 那 么 一 个 像 系 就 需要 占用 四 个 字 节 ， 一 张 铭 
度 为 720 像 素 、 长 度 为 1280 像 素 的 图 片 所 占用 的 空间 大 小 为 : 














1280 * 720 * 4 = 3.515625MB 





如 果 一 个 视频 的 帧 率 (fps)〉 为 24fps， 长 度 为 5 分 钟 ， 那 么 这 个 视频 
用 RGBA 原 始 格式 表示 ， 所 占用 的 大 小 为 : 





3.515625MB * 24 * 5 * 60 = 24.726 





一 个 时 长 为 5 分 钟 的 720P 的 视频 若 占 用 这 么 大 的 空间 ， 显 然 在 存储 
以 及 网 络 传输 方面 会 有 非常 大 的 问题 。 如 果 在 没有 任何 压缩 的 情况 下 ， 
使 用 这 种 格式 表示 视频 ， 是 肯定 不 能 接受 的 。 如 果 仅 使 用 完全 无 损 的 数 
据 压缩 算法 ， 比 如 DEFLATE 〈 在 PKZIP、Gzip 和 PNG 中 使 用 ) ， 是 无 法 
A A 
少 人 。o 





为 了 做 到 这 一 点 ， 数 字 视 频 的 开发 者 利用 人 类 眼睛 的 视觉 效果 来 达 
到 要 求 ， 包 括 : 


.人 类 有 眼睛 对 亮度 的 敏感 度 远 远大 于 颜色 的 敏感 度 ; 


一段 视 频 中 包含 了 大 量 的 视频 帧 ， 而 相 邻 的 视频 帧 之 间 几 乎 没有 
任何 变化 ; 





-一 帧 图 像 内 部 包含 了 许多 使 用 相同 或 相似 颜色 的 区 域 。 


第 二 点 指 的 是 当前 视频 帧 和 下 一 个 视频 帧 以 及 下 下 个 视频 帧 的 差距 
几乎 很 小 ， 所 以 可 以 公用 一 些 相同 的 部 分 ， 即 如 果 当 前 帧 存储 下 来 之 
后 ， 下 一 帧 和 下 下 帧 只 需要 存储 增 量 信息 或 者 变化 的 信息 就 可 ， 这 可 以 
达到 去 除 时 间 元 余 的 目的 ;第 三 点 指 的 是 ， 如 果 把 一 帧 图 像 划 分 成 很 多 
个 小 区 域 ， 那 么 有 许多 区 域 是 相同 的 ， 我 们 可 以 利用 相同 的 区 域 仅 存 储 
一 份 的 策略 来 压缩 视频 帧 ， 以 达到 去 除 空间 元 余 的 目的 。 而 本 节 重 点 介 
绍 第 一 点 。 第 一 点 是 利用 人 的 眼睛 对 亮度 的 敏感 度 要 明显 高 于 对 颜色 的 
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外。 

















图 C-1 


首先 请 读者 看 左边 的 图 片 ， 如 果 可 以 看 出 块 A 和 块 B 的 颜色 是 不 相 
同 的 ， 那 说 明 我 们 的 眼睛 是 没有 问题 的 。 再 看 右边 的 图 片 ， 在 块 A 和 块 
B 之 间 有 一 个 连接 器 ， 其 实 这 两 个 块 的 颜色 是 相同 的 。 那 为 什么 左边 的 
图 片 看 起 来 不 一 样 呢 ? 这 是 我 们 的 大 脑 在 捉弄 我 们 ， 大 脑 让 我 们 更 多 地 
关注 明亮 程度 而 不 是 颜色 。 所 以 我 们 一 旦 知道 人 类 眼睛 的 这 一 生理 特点 
(对 图 片 中 的 亮度 更 加 敏感 ) ， 束 可 以 党 试 利用 它 。 我 们 之 前 使 用 
RGBA 的 表示 格式 来 描述 一 帧 视频 帧 ， 但 是 也 有 其 他 的 表示 格式 ， 有 一 
种 表示 格式 将 亮度 (luminance) 与 色 度 (chrominance) 分 开 来 表示 ， 
这 就 是 所 谓 YCbCr 格 式 表示 视频 帧 的 方式 。 


YCbCr 闫 色 模 型 使 用 Y 通 道 表 示 有 党 度 ， 使 用 两 个 颜色 通道 Cb〈 蓝 色 
程度 ) 与 Cr (红色 程度 ) 表示 色彩 。YCbCr 表 示 格 式 可 以 从 RGB 表 示 格 
式 中 派生 出 来 ， 当 然 也 可 以 转换 回 RGB 格 式 。 所 以 使 用 这 种 模型 ， 也 可 











以 创建 出 完整 的 彩色 图 像 ， 如 图 C-2 所 示 。 


U (chroma blue) V (chroma red) 





图 。C-2 


有 些 人 可 能 会 说 ， 我 们 怎么 能 在 不 使 用 绿色 的 情况 下 生产 出 所 有 的 
颜色 呢 ? 为 了 回答 这 个 问题 ， 我 们 将 讨论 从 RGB 到 YCbcCr 的 转换 。 我 们 
将 使 用 标准 的 BT.601 的 系数 ， 它 是 由 ITU-R 小 组 推荐 的 ， 第 一 步 是 计算 
luma， 并 替换 RGB 值 。 








Y = 0.299R + 0.587G + 0.114B 





一 旦 有 了 亮度 值 ， 就 可 以 计算 出 Cb 和 Cr 的 值 了 ， 计 算 公式 如 下 : 


cb = 0.564(B - Y) 
cr = 0.713(R - Y) 








我 们 也 可 以 从 YCbCr 转 换 为 RGB 的 格式 ， 甚 至 可 以 得 到 绿色 ， 计 算 
Ss 





1.402Cr 
1.772Cb 

0.344Cb - 0.714Cr 
= 





既然 YCbCr 这 种 表示 格式 天 然 地 将 亮度 信息 和 色 度 信息 分 开通 道 存 
储 了 ， 那 么 我 们 可 以 利用 人 类 眼睛 对 亮度 信息 更 加 敏感 这 一 特性 来 对 色 
度 信息 进行 降 采样 处 理 ， 如 图 C-3 所 示 。 











图 C-3 这 种 表示 格式 也 就 是 大 家 最 向 使 用 的 YUV420P 的 表示 格式 ， 
一 般 在 YCbCr 的 表示 格式 中 和 常 分 为 三 部 分 来 表达 ， 即 a: Xx: y， 这 如 定 
义 了 a*2 个 像素 中 的 亮度 与 色 度 的 关系 。 比 如 ，YUV444 代 表 色 度 信 息 不 
经 过 任何 的 降 采 样 处 理 ， 也 称 为 无 压缩 的 YUV 格 式 ; 而 格式 YUV420 不 
是 不 需要 V 通 道 ， 而 是 每 八 个 像素 有 两 个 U 和 两 个 YY， 如 图 C-4 所 示 : 





1 280 320 





+ 十 

= 
图 C-4 

这 样 1280x720 的 一 帧 视频 帧 所 占 的 存储 容量 计算 如 下 : 


1280 * 720 * 1.5 = 1.3184MB 








而 YUV 的 表示 格式 的 出 现 也 是 为 了 彩色 电视 机 可 以 兼容 黑白 电视 机 
的 一 种 实现 方案 ， 即 黑白 电视 仅 需 要 使 用 Y 通 道 的 数据 ， 就 可 以 显示 出 
所 需要 的 效果 。 








视频 帧 虽然 使 用 YUV 格 式 来 表示 ， 但 是 最 终 演 染 到 屏幕 上 的 还 是 以 
RGB 的 形式 泻 染 上 去 的 ， 因 为 无 论 任 何 设备 的 屏幕 都 是 由 无 数 个 RGB 的 
子 像素 点 来 呈现 图 像 的 像素 的 ， 如 图 C-5 所 示 。 








如 果 使 用 CPU 将 每 一 帧 视频 帧 从 YUV 格 式 转换 为 RGB 格式 再 去 泻 染 
到 屏幕 上 上， 效率 通 名 都 会 非常 低 。 而 使 用 OpenGL ES 将 YUV 泻 染 成 为 
RGB 无 疑 是 效率 比较 高 的 一 种 方式 ， 要 想 完 成 使 用 OpenGL ES 转换 
YUV， 第 一 步 就 是 要 把 YUV 上 传 到 显卡 中 的 一 个 已 知 纹理 上 去 。 在 上 
传 之 前 ， 有 一 个 对 齐 像 素 字 节 的 函数 需要 调用 ，OpenGL ES 中 提供 了 方 
法 原型 ， 如 下 : 





glPixelStorei(GLenum pname, GLint param); 





上 述 函 数 的 含义 是 设置 像素 存储 模式 ， 它 包含 有 两 个 参数 。 


:pname: 指定 要 被 设置 参数 的 符号 名 ， 以 枚 举 的 形式 定义 在 
OpenGL ES 中 ， 第 一 种 枚 举 类 型 是 GL_ PACK_ALIGNMENT， 它 影响 将 
像素 数据 写 回 到 内 存 的 打包 操作 ， 对 glReadPixels 函 数 的 调用 产生 影 
响 ; 第 二 种 枚 举 类 型 是 GL_UNPACK_ALIGNMENT， 它 影响 显卡 从 内 
存 读 到 的 像素 数据 的 解 包 操作 ， 对 glTexImage2D 以 及 glTexSubImage2D 
函数 的 调用 产生 影响 。 


:param: 指定 为 相应 的 pname 类 型 设置 的 值 。 可 选 值 有 1、2、4 或 
8， 默 认 值 为 4， 该 值 用 于 指定 存储 器 中 每 个 像素 行 有 和 多少 个 字 节 对 齐 ， 
对 齐 的 字 市 数 越 高 ， 系 统 优 化 的 空间 就 会 越 大 ， 即 将 内 存 中 的 多 个 字 节 
一 起 上 传 到 显卡 中 或 者 从 显卡 中 下 载 到 内 存 中 。 


在 实际 代码 中 ， 我 们 看 到 的 调用 可 能 如 下 : 


glPixelStorei(GL_ UNPACK ALIGNMENT, 1); 


比如 最 常见 的 YUV420P 格 式 中 YUV 的 比例 为 4 : 1 : 1， 即 每 四 个 像 
素 用 4 个 Y、1 个 U 和 1 个 V 来 表示 ， 而 标清 分 辨 率 有 320x240 或 者 
640x480 〈480P) ， 高 清 分 辨 率 一 般 是 1280x720 (720P) 或 者 
1920x1080 〈1080P) 。 而 显卡 在 传输 数据 时 默认 为 4 字 节 对 齐 〈param 默 
认 值 为 4) ， 也 就 是 对 像素 数据 按 4 字 节 对 齐 进 行 存 取 。 所 以 显卡 更 偏向 
于 每 一 行 的 数据 量 是 4 的 整数 倍 〈 按 上 述 分 辩 率 来 看 恰好 是 比较 常见 
的 ) 。 所 以 为 了 更 高 的 存 取 效 率 ，OpenGL 默 认 将 像素 数据 按 4 字 节 的 方 
式 传输 向 显卡 。 这 在 常见 的 分 辨 紊 下 都 没有 问题 ， 问 题 在 于 对 于 非 4 字 
节 对 齐 的 像素 数据 ， 第 一 行 的 最 后 一 次 打包 的 4 字 节 将 包括 第 一 行 的 结 























束 数 据 部 分 和 第 二 行 开 始 的 数据 部 分 ， 当 然 致命 的 不 是 在 这 里 ， 而 是 在 
最 后 一 行 ， 存 取 将 很 可 能 会 越界 。 为 了 防止 这 样 的 情况 发 生 ， 一 是 硬性 
把 像素 数据 延展 成 4 字 节 对 齐 的 〈 就 像 BMP 文 件 的 存储 方式 一 样 ) ; 二 
是 选择 绝对 会 造成 4 字 节 对 齐 的 颜色 格式 或 值 格式 (GL_RGBA， 或 者 
GL_INT、GL FLOAT 之 类 的 表示 格式 ) ; 三 是 以 牺牲 一 些 存 取 效 率 为 
代价 ， 去 更 改 OpenGEL 的 字 节 对 齐 方式 ， 将 param 值 设置 为 1。 所 以 ， 要 
想 提 高 效率 ， 尽 量 保证 每 一 行 的 U 或 者 V 是 4 的 整数 倍 。 但 是 ， 如 果 出 现 
奇 范 的 分 辨 率 ， 比 如 420x314， 每 一 行 的 Y 通 道 是 420 个 值 ， 除 以 4 是 可 
以 除 尽 的 ， 但 是 每 一 行 的 U 或 者 V 仅 有 105 个 值 ， 就 不 再 是 4 的 整数 倍 
了 ， 这 种 情况 下 ， 如 果 不 去 设置 对 齐 方式 ， 就 有 可 能 出 现 Crash 或 者 出 
现 颜色 混乱 的 问题 。 解 决 办 法 是 让 字 节 对 齐 方式 从 默认 的 4 字 节 对 齐 改 
成 1 字 节 对 齐 〈 选 择 1， 无 论 分 辨 率 怎 样 ， 都 是 绝对 不 会 出 问题 的 ， 但 是 
效率 下 降 了 ) ， 下 面 给 出 在 YUV420P 格 式 下 的 通用 解决 方法 ， 如 下 所 
外: 























int framewidth = frame->width,; 

int frameHeight = frame->helight 

if(framewidth % 16 != 0){ 
glPixelStorei(GL UNPACK ALIGNMENT, 1); 


上 述 代 码 可 以 作为 通用 解决 问题 的 方法 ， 即 当 宽 上 度 是 16 的 整数 倍 的 
时 候 ， 就 不 去 做 任何 设置 ， 以 默认 的 4 字 市 对 齐 作 为 对 齐 方 式 ， 为 什么 
是 16 昵 ?因为 像素 数目 除 以 4 是 U 或 者 V 的 数目 ， 再 保证 以 4 字 市 对 齐 ， 
所 以 就 是 16 了 。 妆 不 是 16 的 整数 倍 的 时 候 ， 束 需 要 设置 1 字 市 对 齐 的 方 
式 作为 对 齐 方 式 。 


C.3 ”编码 器 的 工作 编码 原理 


前 面 介 绍 了 为 了 让 视频 可 以 存储 到 硬盘 以 及 可 以 满足 网 络 传输 ， 不 
仅 需 要 利用 人 类 眼睛 的 生理 特点 将 RGB 表示 格式 换 为 YUV420P 格 式 来 
表示 《虽然 这 将 存储 大 小 减 小 了 一 半 ) ， 还 应 该 使 用 有 损 的 压缩 方式 ， 
将 YUV420P 的 原始 数据 压缩 到 更 小 。 前 面 还 介绍 过 有 两 种 方式 可 以 压 
缩 视 频 原 始 数据 : 一 是 去 除 时 域 上 的 元 余 信 息 ; 二 是 去 除 单 张 视频 帧 的 
空间 元 余 信 息 。 那 这 两 部 分 工作 也 是 编码 器 工作 的 重点 ， 本 节 就 来 介绍 
这 两 部 分 的 通用 实现 手段 ， 但 是 在 不 同 的 编码 器 中 实现 的 方式 又 有 所 不 
同 ， 编 码 出 来 的 视频 质量 以 及 性 能 消耗 也 是 不 同 的 ， 而 性 能 和 质量 也 是 
开发 者 选用 编码 器 的 衡量 指标 。 


























C.3.1 帧 类 型 介绍 


在 尝试 消除 元 余 信 息 《〈 不 论 是 时 间 的 元 余 信 息 还 是 空间 的 元 余 信 
息 ) 之 前 ， 我 们 先 来 统一 一 下 术语 。 假 设 有 一 个 帧 率 〈fps) 为 30fps 的 
电影 ， 图 C-6 是 前 四 帧 的 内 容 。 


哪 要 咖哩 


图 “C-6 


在 这 四 帧 视频 巾 中 ， 我 们 可 以 看 到 大 量 的 重复 信息 ， 比 如 更 色 的 背 
景 ， 它 在 第 一 帧 到 第 四 帧 中 并 没有 任何 变化 。 为 了 消除 这 些 见 余 信息 ， 
我 们 可 以 将 视频 帧 的 类 型 抽象 为 三 种 类 型 。 


由 


I 帧 是 一 个 仪 包含 当前 帧 信息 的 视频 帧 类 型 ， 所 以 它 又 被 称 为 参考 
帧 、 关 键 巾 。 在 解码 过 程 中 ， 它 不 需要 依赖 任何 帧 束 可 以 被 解码 出 来 ， 
一 个 项 看 起 来 和 一 张 静 态 图 片 非常 类似 ， 视 频 流 或 者 视频 文件 中 第 一 
帧 通 第 是 I 帆 ， 并 且 会 定期 在 其 他 帧 类 型 中 间 插 入 项。 


:P 帧 


P 帧 是 前 问 参考 帧 ， 可 以 使 用 前 面 的 ! 帧 与 P 巾 来 呈现 出 当前 的 视频 
帧 ， 这 也 是 解码 器 的 解码 规则 ， 例 如 图 C-6 中 第 三 帧 视频 帧 与 第 一 帧 视 
频 帧 的 变化 只 是 球 向 石 前 方 移动 了 ， 所 以 我 们 可 以 基于 第 一 帧 视频 帧 来 
描述 变化 部 分 的 内 容 作为 第 二 帧 视频 巾 的 内 容 ， 这 样 第 二 帧 视频 巾 所 占 
用 的 空间 融会 大 大 减 小 。 


:B 帧 


相 较 于 P 帧 仅 参 考 前 面 的 视频 帧 内 容 ，B 帧 又 增加 了 对 后 边 视频 帧 
的 参考 ， 这 样 可 以 提供 更 好 的 压缩 。 但 是 ， 这 对 于 编码 器 来 说 ， 计 算 量 
增 大 的 同时 ， 也 增加 了 编码 输出 的 延迟 时 间 《〈 因 为 需要 参考 后 续 过 来 的 
0 
、\ BB 由 。 


























这 些 帧 类 型 共同 组 成 了 一 个 完整 的 视频 ， 如 图 C-7 所 示 。 





I-frame P-frame B-frame I-frame 


图 C-7 





如 果 仪 从 存储 或 者 网 络 带宽 角度 来 衡量 ， 我 们 可 以 认为 帧 是 最 昂 
贵 的 ，P 帧 会 便宜 一 些 ，B 帧 则 最 便宜 。 


C.3.2 消除 时 间 的 元 杂 信 息 

本 节 我 们 一 块 来 讨论 如 何 消 除 视频 帧 在 时 间 上 的 见 余 信息 ， 比 较 成 
熟 的 技术 就 是 帧 间 预 测 技术 (inter-frame prediction) 。 我 们 先 来 看 图 C- 
8 的 两 帧 视频 帧 。 


frame 0 frame 1 


“gt 
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图 。C-8 








我 们 将 去 除 时 间 上 的 宛 余 信息 来 达到 使 用 更 少 的 字 节 存储 这 两 帧 视 
频 帧 的 目的 ， 目 然 想到 的 就 是 将 这 两 帧 视频 帧 做 减法 ， 求 出 diff 值 ， 就 
是 我 们 要 进行 编码 的 东西 ， 如 图 C-9 所 示 。 


其 实 还 有 一 种 更 好 的 方法 可 以 使 用 更 少 的 比特 数 来 存储 第 三 帧 视频 
帧 的 内 容 。 首 先 ， 我 们 将 每 一 帧 视频 帧 (frame_0) 分 为 很 多 个 部 分 ， 
然后 将 这 两 帧 视频 帧 中 的 每 一 部 分 进行 匹配 ， 这 种 算法 我 们 可 以 看 成 是 
运动 估计 ， 如 图 C-10 所 示 。 
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图 。C-9 
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图 。C-10 


从 第 一 帧 变化 到 第 二 帧 的 过 程 中 ， 我 们 可 以 估计 第 一 帧 视频 帧 中 的 
黑色 球 从 点 (x=0，y=25)〉 到 点 (x=7，y=26) ， 而 x 和 y 组 成 的 值 的 集 
合 束 称 为 运动 回 量 。 我 们 可 以 更 进一步 来 节省 编码 内 容 ， 即 仅 对 这 两 帧 
之 间 的 运动 矢量 差 进行 编码 ， 所 以 最 终 运 动 矢量 是 x=6 (6-0) ， 
y=1 (26-25) 。 当 然 ， 在 真实 的 编码 过 程 中 ， 图 中 的 小 球 会 划分 为 N 个 
部 分 ， 我 们 把 它 划 分 为 一 部 分 只 是 为 了 更 加 方便 理解 。 所 以 ， 当 应 用 了 

少 得 多 。 


其 实 可 以 使 用 ftmpeg 命 令 行 工具 来 看 到 一 个 视频 的 分 块 情况 ， 命 令 
如 下 : 














ffmpeg -debug vis mb_type -i input.mp4 output.mp4 





这 样 去 播放 output.mp4 文 件 ， 就 可 以 看 到 视频 的 分 块 情况 。 当 然 ， 
也 可 以 直接 使 用 ffplay 播 放 分 块 的 视频 ， 命 令 如 下 : 





ffplay -debug vis mb_type input.mp4 








还 可 以 使 用 ftmpeg 工 具 来 得 看 运动 天 量 的 情况 ， 命 令 如 下 : 





ffplay -flags2 +export_mvs -vf codecview=mv=pf+bf+bb input.flv 





人 至此， 时 间 元 余 信 息 可 以 利用 运动 佑 计算 法 给 消除 掉 。 之 所 以 可 以 
使 用 运动 估计 ， 需 要 一 个 帧 作为 参考 帧 ， 也 束 是 I 帧 。 那 么 项 是 如 何 进 
行 压缩 的 呢 ? 这 就 是 接 下 来 我 们 要 讲解 的 空间 元 余 信 息 的 消除 部 分 。 














C.3.3 ”空间 的 见 余 信息 消除 
在 一 帧 视频 帧 中 ， 我 们 可 以 看 到 大 量 的 重复 信息 ， 如 图 C-11 所 示 。 








A By 2 I er 


图 。C-11 


图 C-11 中 可 以 看 到 有 大 量 的 蓝 色 和 和 白色， 如果 这 是 一 帧 帧 的 话 ， 
就 无 法 使 用 帧 间 预 测 技术 来 压缩 它 。 因 此 ， 我 们 要 采用 其 他 办 法 来 压缩 
这 张 图 片 ， 因 为 它 的 重复 信息 比较 多 ， 如 图 C-12 所 示 。 

如 图 C-12 所 示 ， 我 们 将 对 标 出 来 红色 块 部 分 进行 编码 ， 还 可 以 根据 
红色 块 周围 的 颜色 来 预测 当前 部 分 的 颜色 值 ， 比 如 可 以 预测 帧 将 继续 垂 
直 传播 颜色 ， 这 意味 着 未 知 像素 的 颜色 将 保持 其 邻居 的 值 ， 如 图 C-13 所 
人 No 
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图 。C-12 





图 。C-13 


但 是 我 们 的 预测 也 有 可 能 是 错误 的 ， 所 以 需要 使 用 男 外 一 项 技术 ， 
即 巾 内 预测 技术 。 使 用 真正 的 值 减 去 预测 的 值 ， 可 以 得 到 一 个 更 容易 不 


压缩 的 和 矩阵， 如 图 C-14 所 示 。 
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图 。C-14 


帧 内 预测 技术 使 得 空间 压缩 变 成 现实 。 编 码 吉 还 需要 使 用 量化 、 入 
编码 等 步 又 共同 来 编码 出 最 终 的 视频 。 如 果 读 者 有 兴趣 了 解 更 多 的 内 部 


细节 ， 可 以 参考 libx264 的 官方 文档 。 
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